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内 容 简 介 


本 书 在 全 面 介 绍 互联 网 流量 大 数据 获取 索引、 存储 和 分 析 等 基本 知识 的 基础 上 ,着 重 介绍 基于 多 
级 过 滤器 和 空 时 Bloom Filter 的 流量 测量 技术 、 基 于 网 包 调度 的 流量 管理 技术 、 基 于 模式 匹配 的 攻击 检 
测 技 术 、 基 于 流 式 计算 的 实时 攻击 检测 方法 、 基 于 流量 分 析 的 互联 化 安全 软件 的 行为 分 析 和 基于 大 数据 
平台 的 互联 网 流量 存储 与 处 理 的 方法 ,并 通过 中 国联 通 研究 院 的 移动 互联 网 监控 平台 和 互联 网 企业 流 
量 大 数据 平台 的 实际 例子 ,说 明 这 些 技术 的 具体 应 用 ,全 书 提供 了 大 量 应 用 实例 。 

全 书 共 分 8 章 : 第 1 章 介绍 互联 网 流量 大 数据 背景 ,包括 移动 互联 网 发 展 态势 。 第 2 章 介绍 互联 网 
流量 测量 与 带宽 管理 ,着重 介绍 高 速 网 络 流量 测量 与 网 包 调度 算法 及 应 用 。 第 3 章 介绍 互联 网 流量 归 
档 与 查询 ,该 技术 是 流量 大 数据 运营 的 前 提 。 第 4 章 介绍 互联 网 流量 大 数据 存储 ,大 数据 存储 是 流量 大 
数据 运营 的 基础 ,当前 流行 的 大 数据 存储 架构 为 HDFS/HBase 技术 。 第 5 章 介 绍 互联 网 流量 攻击 检测 
的 流 扫描 和 多 模 匹 配 HBM 算法 等 关键 技术 。 当 前 网 络 攻击 形式 更 加 多 样 化 ,如 何 高 效 深度 分 析 网 流 
内 容 , 查 找 网 络 攻击 源头 是 流量 大 数据 的 一 个 创新 应 用 。 第 6 章 介 绍 互联 网 流量 大 数据 的 网 络 攻击 检 
测 ,网 络 攻击 实时 检测 是 保障 互联 网 服务 安全 的 重要 手段 ,介绍 了 互联 网 企业 在 保障 业务 安全 中 的 攻击 
检测 手段 。 第 7 章 介 绍 互联 网 化 软件 流量 行为 分 析 。 互 联 化 终端 软件 是 通过 云 计 算 平台 部 署 的 ,能 够 
充分 利用 互联 网 基础 服务 。 在 改善 用 户 体验 的 同时 ,也 会 带 来 用 户 隐私 泄露 的 隐患 。 第 8 章 回顾 了 前 7 
HAA, BASH. 

本 书 适合 作为 高 等 院 校 计 算 机 系统 架构 .计算 机 网 络 及 安全 专业 高 年 级 本 科 生 、 研 究 生 的 教材 ,同时 
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LES 


随 着 互联 网 应 用 的 普及 和 渗透 ,宽带 移动 无 线 网 络 的 大 规模 商用 ,整个 互联 网 流量 总 
量 高 速 增长 。 移 动用 户 可 以 通过 任何 设备 ,在 任何 地 方 ,获取 任何 想 要 的 内 容 , 产 生 了 大 
规模 的 移动 流量 数据 。 据 思科 公司 报告 中 预言 ,互联 网 的 流量 数据 在 2011 到 2016 年 之 
间 将 增长 4 倍 ,并 于 2016 年 达到 1.3ZB(1ZB 王 102B)。 据 中 国联 通 公 司 统计 ,2012 一 
2013 年 ,移动 用 户 流量 的 复合 增长 率 为 135% ,3G 月 均 流量 增长 最 高 。 而 对 于 一 家 大 型 
的 互联 网 公司 (如 百度 淘宝、 腾讯 等 ) ,在 日 常 运营 中 生成 和 累积 的 用 户 行 为 数据 是 相当 
庞大 的 ,往往 达到 TB(1TB 王 102B) 级 甚至 PB(1PB 王 105B) 级 的 数据 。 如 此 庞大 的 数据 
流量 的 管理 是 一 个 具有 挑战 性 的 问题 ,需要 一 整套 大 数据 存储 处 理 和 分 析 平台 。 

本 书 详细 探讨 了 互联 网 流量 大 数据 的 获取 、 存 储 、 分 析 和 处 理 的 关键 技术 ,如 网 包 在 
线 抓 取 , 流 量 档案 化 ,索引 及 索引 压缩 算法 ,基于 HDFS 与 HBase 的 分 布 式 可 扩展 并 行 存 
储 与 分 析 架 构 , 应 用 于 攻击 检测 的 模式 匹配 算法 ,面向 流 式 与 实时 计算 的 大 数据 架构 及 处 
理 方法 。 在 此 基础 上 ,对 流量 大 数据 进行 深入 分 析 挖掘 ,如 用 户 行为 分 析 、 攻 击 检 测 和 应 
用 软件 行为 分 析 等 。 同 时 ,互联 网 流量 测量 也 是 运营 商 管 理 网 络 的 基本 手段 ,诊断 可 能 存 
在 的 性 能 瓶颈 ,发现 网 络 链 路 故障 。 通 过 流量 带宽 管理 手段 ,对 不 同 优先 级 的 网 络 流量 进 
行 分 级 管理 ,实现 网 络 的 最 优化 运营 。 对 互联 网 流量 大 数据 分 析 , 可 以 实时 在 网 络 上 监控 
发 生 的 每 一 个 请 求 、 服 务 、 交 易 ; 对 途经 流量 进行 深层 次 报 文 分 析 (DP1) ,重组 应 用 层 有 效 
信息 ,双向 匹配 请 求 /服务 并 记录 ,从 而 尽 最 大 可 能 发 现 各 种 安全 攻击 ,并 进行 实时 阻 断 。 
中 国联 通 公 司 进 一 步 提出 了 流量 大 数据 产业 经 济 方案 ,基于 流量 大 数据 的 生态 系统 产业 
经 济 建设 的 方案 ,联合 多 个 合作 方 ,包括 基础 框架 服务 商 ISP、 运 营 商 的 大 数据 服务 商 、 大 
数据 分 析 与 挖 据 企业 和 内 容 与 客户 端 应 用 商 。 

本 书 内 容 经 过 10 多 年 实际 科研 项 目 工作 积累 使 用 ,选取 的 内 容 力求 丰富 全 面 ,基本 
概念 的 讲解 细致 ,深入 浅 出 。 该 书 作者 长 时 间 在 互联 网 网 络 安全 领域 从 事 研 究 ,熟悉 分 布 
式 系统 、 互 联网 安全 和 软件 可 信 性 分 析 , 尤 其 对 该 书 投 入 巨大 精力 , 尽 可 能 让 读者 在 较 短 
时 间 内 全 面 把 握 互 联网 流量 的 获取 和 分 析 处 理 , 并 应 用 于 实际 工作 中 。 
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互联 网 流量 大 数据 背景 


当前 的 互联 网 体系 结构 是 基于 终端 间 TCP/IP 的 点 到 点 通信 架构 , 随 着 互联 网 尤其 
是 移动 互联 网 的 发 展 ,连接 的 上 网 终端 设备 已 经 达到 数 十 亿 台 。Cisco 公司 的 报告 表明 ， 
互联 网 流量 2012 年 每 月 数据 量 为 44 艾 字 节 (EB,，Exabyte) ,是 2009 年 每 月 流量 的 3 倍 ， 
流量 大 数据 时 代 已 经 来 临 。 互 联网 流量 大 数据 体现 了 大 数据 的 典型 4V 特征 : 流量 数据 
的 大 小 (Volume) ,流量 数据 的 类 别 (Variety) 、 流 量 数据 的 速度 (Velocity) 和 流量 数据 的 
价值 (Value)。 互联 网 流量 数据 量 大 协议 类 别 多 、 产 生 速度 高 .蕴含 价值 大 ,对 流量 大 数 
据 的 分 析 处 理 是 产生 价值 的 重要 途径 。 对 于 国家 监管 部 门 而 言 ,流量 大 数据 具有 国防 公 
共 安 全 价值 ;对 运营 商 和 商业 用 户 而 言 , 互 联网 用 户 的 行为 和 内 容 获取 ,具有 重要 的 商业 
价值 。 因 此 有 必要 对 网 络 流量 进行 记录 和 深入 分 析 。 


1.1 网 络 流量 记录 与 分 析 


随 着 互联 网 的 飞速 发 展 ,人 们 的 工作 ,学习 和 生活 均 已 经 和 网 络 密切 相关 。 对 网 络 的 
内 容 和 运行 状况 监控 ,保证 网 络 健康 正常 地 运行 已 成 为 一 项 重要 工作 。 在 中 国 “ 十 二 五 ” 
规划 纲要 中 ,已 经 明确 提出 要 “加 强 网 络 与 信息 安全 保障 ”, 充 分 体现 了 国家 对 信息 安全 的 
重视 。 

而 网 络 的 开放 性 造成 了 网 络 攻击 的 普遍 性 。 在 网 络 链 路 方面 ,网 络 中 某 个 节点 的 错 
误 配 置 可 能 会 给 整个 网 络 带 来 灾难 性 的 后 果 ; 网 络 攻击 会 造成 链 路 的 阻塞 ,服务 器 的 骨 
泪 , 甚 至 是 局 部 网 络 通信 的 中 断 。 在 网 络 内 容 方面 ,人 们 可 以 在 各 个 地 方 上 传 不 良 信息 ， 
进行 非法 活动 ,给 其 他 互联 网 的 使 用 者 带 来 不 好 的 思想 .精神 、 经 济 等 方面 的 影响 和 损失 。 
由 于 这 些 行为 常常 不 能 在 发 生 时 被 发 现 ,因此 需要 对 网 络 流量 进行 记录 ,以 供 后 期 进行 研 
究 、 分 析 和 举证 。 

ISP( Internet Service Provider) 管理 和 运行 大 型 的 高 速 网 络 , 链 路 速度 在 10 一 
100Gbps 级 , 即 每 秒 产生 的 数据 量 为 1 一 10Gb 量 级 ,如 果 要 进行 流量 的 记录 ,代价 非常 高 。 
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这 样 的 设备 和 技术 的 价格 也 是 一 般 用 户 无 法 承受 的 。 同 时 ,互联 网 的 发 展 使 许多 公司 拥 
有 自己 的 企业 网 络 ,也 有 许多 公司 将 自己 的 服务 器 托管 到 IDCCInternet Data Center) 运 
行 。 这 样 的 局 部 网 络 的 数目 非常 庞大 ,其 网 络 带宽 一 般 在 100 一 1000Mbps。 管 理 这 些 局 
部 的 网 络 也 是 一 个 非常 现实 的 问题 ,为 这 样 的 网 络 设计 和 实现 廉价 的 网 络 流量 记录 工具 
具有 很 大 的 应 用 前 景 。 


1.2 网 络 流量 研究 现状 


通过 对 以 往 研 究 的 调查 可 以 发 现 ,流量 信息 的 存储 和 记录 已 有 不 少 研究 成 果 。 在 本 
文中 将 以 往 的 工作 分 两 类 分 别 介绍 ,它们 分 别 是 网 流 信 息 的 记录 与 查询 、 网 络 流量 的 记录 
和 查询 。 两 者 名 字 看 上 去 很 相似 ,但 是 却 对 处 理性 能 要 求 有 截然 不 同 的 差距 。 前 者 是 指 
对 网 络 中 的 流 信息 的 记录 与 查询 ,要 记录 和 归档 的 内 容 是 描述 一 个 网 流 的 信息 ,比如 常用 
的 五 元 组 信息 ( 源 IP 地 址 ,目标 IP 地 址 , 源 端口 ,目标 端口 ,传输 层 协议 ) ,网 流 的 大 小 , 产 
生 时 间 , 持 续 时 间 ; 但 不 对 网 络 流量 的 内 容 作 具体 的 记录 。 而 后 者 要 求 将 网 络 中 实际 传输 
的 网 包 记录 下 来 。 


1.2.1 网 流 信 息 的 归档 与 查询 


在 过 去 的 10 年 中 ,由 于 系统 的 硬件 发 展 所 限 , 特 别 是 存储 设备 ,如 硬盘 大 小 限制 , 记 
录 实 际 的 网 络 流量 是 件 十 分 困难 的 事情 。 因 此 ,对 网 络 流量 的 检测 与 统计 靠 的 是 对 网 络 
流量 的 抽象 信息 。 这 些 抽象 信息 能 满足 对 网 络 中 流量 进行 统计 ,监测 和 事件 回溯 的 基本 
需求 。 如 今 广泛 使 用 的 各 种 网 络 监测 、 管 理 软件 都 是 依靠 这 样 的 信息 抽象 方式 来 表达 网 
络 运行 的 状况 。 

NetFlow ffl sFlow 中 是 现行 的 在 业界 广泛 使 用 的 对 网 流 进行 描述 的 标准 。 它 们 的 
信息 来 源 于 网 络 中 的 探测 点 (如 路 由 器 ) 向 外 界 发 送 的 对 网 络 实时 流量 的 分 析 与 统计 得 到 
流 信息 。 之 前 的 研究 主要 是 建立 一 个 这 样 的 流 信息 的 收集 存储 .归档 和 检索 系统 。 使 得 
这 个 系统 能 很 好 地 服务 于 网 络 监控 程序 。 

由 于 流量 信息 具有 量 大 、 变 化 快 (每 秒 新 建 流 数量 大 ) 的 特点 ,如 果 要 从 探测 点 获取 精 
确 的 信息 就 要 求 探测 点 为 每 个 流 做 细 粒 度 的 统计 ,而 这 会 使 得 网 络 中 探测 点 的 负载 增加 ， 
从 而 降低 这 些 探测 点 的 本 职工 作 效率 (如 路 由 器 的 转发 效率 )。 因 此 ,探测 节点 经 常 利用 
采样 的 方法 降低 工作 负载 ,但 这 又 导致 了 流 信 息 的 不 准确 。 

网 流 信息 归档 与 查询 系统 要 求 收集 来 自 网 络 中 探测 节点 的 流 信 息 ,存储 到 本 地 ,并 向 
外 提供 查询 接口 。 换 言 之 ,网 流 信 息 的 归档 与 查询 系统 就 是 要 建立 一 个 网 流 信息 的 数据 
库 。 数 据 库 中 的 每 条 信息 是 收集 自 网 络 中 探测 节点 的 一 条 网 流 描 述 。 数 据 库 的 输入 是 查 
询 语 句 和 不 断 增加 的 网 流 信 息 条 目 ,输出 是 想 要 查询 的 相关 的 网 流 信 息 。 
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总 结 相 关 的 研究 和 工作 ,可 以 把 存储 的 网 流 信 息 分 为 三 类 。 
1. 原始 文件 


使 用 原始 文件 的 好 处 是 ,可 以 以 最 快速 度 记录 收集 到 的 流 信息 ,并 且 这 种 方案 将 流 的 
记录 和 分 析 分 开 成 两 个 工作 。 这 样 做 的 缺点 是 某 些 流量 信息 记录 下 来 之 后 ,要 经 过 一 段 
时 间 才 会 被 分 析 模 块 处 理 , 也 就 是 说 ,对 某 一 条 在 t 时 刻 发 生 的 事件 ,要 在 :十 At 时 刻 才 
能 被 查询 ,而 在 (1,t 十 A7z) 时 间 段 内 , 查 不 到 其 实 已 经 收集 到 的 信息 。 因 此 采用 原始 文件 
的 方案 降低 了 查询 的 实时 性 。 

使 用 原始 文件 的 另 一 个 缺点 是 ,由 于 没有 对 信息 做 任何 索引 ,检索 时 将 不 得 不 在 原始 
文件 中 逐条 遍历 ,这 使 得 查询 性 能 变 得 不 可 容忍 。 但 是 这 个 缺点 可 以 通过 一 些 其 他 手段 
缓解 ,比如 根据 时 间 把 不 同时 段 的 流 存 储 到 不 同 的 文件 。 但 当 用 户 不 使 用 时 间 区 域 限 制 
或 将 时 间 范 围 设置 得 很 大 时 ,这 种 手段 又 失效 了 。 

属于 这 类 的 工作 有 nfdump'? fl OSU flow-tools'! 。 

2. 通用 数据 库 

使 用 通用 数据 库 的 好 处 主要 有 : 安全 稳定 的 数据 库 支 持 , 无 须 自己 开发 ,灵活 方便 的 
SQL 语句 查询 。 通 用 的 关系 型 数据 库 被 广泛 用 于 各 种 类 型 数据 的 存 取 。 但 是 对 于 某 一 
种 特殊 的 应 用 ,不 一 定 能 取得 最 理想 的 效果 ,因为 它 没有 利用 该 应 用 的 数据 特点 。 

以 往 的 研究 表明 ,使 用 通用 关系 型 数据 库 进行 存储 流 信息 ,其 插入 、 查 询 的 效率 甚至 
比 使 用 原始 文件 的 效率 还 要 低 ,并 且 还 要 占用 更 大 空间 器 。 

属于 这 类 的 工作 有 Neyel? , Combining!" 。 

3. 专用 数据 库 

为 专门 的 数据 设计 专用 的 数据 库 才 能 根据 数据 的 特点 对 数据 的 存储 和 查找 在 时 间 和 
空间 性 能 方面 做 优化 。Gigascope[9 建造 了 高 性 能 的 网 流 信息 数据 库 , 在 一 台 普 通 的 主 频 
为 2. 4GHz 的 双核 服务 器 上 ,每 秒 能 处 理 1 200 000 个 包 的 信息 ,并 且 自 己 实现 了 方便 灵 
TEAS OF SQL 语句 的 查询 语法 GSQL. Tribeca? 10 多 年 前 提出 的 一 个 方案 ,其 中 明确 
指出 了 不 使 用 通用 关系 数据 库 的 几 大 原因 : 流 状 的 数据 不 需要 经 过 更 改 , 但 要 求 快速 顺 
序 访 问 ;通用 关系 数据 库 不 能 很 好 地 支持 统计 上 的 常用 计算 ,如 计算 时 间 间 隔 ; 空 间 消 耗 
ERK. Tribeca 提出 了 自己 的 查询 系统 和 相应 的 查询 语句 。Collecting[5 提出 了 使 用 
Bitmap 索引 数据 库 对 流 信息 进行 储存 和 查询 的 方法 ,取得 了 比 通用 关系 型 数据 库 更 好 的 
性 能 。 


1.2.2 网 络 流量 的 归档 与 查询 


由 于 硬件 的 不 断 发 展 ,TB 级 的 硬盘 已 经 开始 普及 ,价格 也 下 降 到 了 可 以 接受 的 范 
围 。 同 时 计算 性 能 的 发 展 使 得 完全 记录 网 络 流量 ,而 不 仅仅 记录 一 些 统计 信息 成 为 可 能 。 


4  ERBREXSRIS 


过 去 关于 网 络 流量 的 归档 与 查询 系统 的 设计 与 研究 ,可 以 分 为 两 个 方面 : 系统 级 方案 和 
应 用 级 方案 。 


1. 系统 级 方案 

系统 级 方案 是 指 为 了 实现 网 络 流量 的 归档 与 查询 ,从 操作 系统 这 一 层面 提出 的 解决 
方案 。 这 样 的 方案 充分 利用 机 器 的 硬件 性 能 。 这 方面 工作 十 分 突出 的 是 Hyperion"? , 
Hyperion 设计 了 一 个 支持 高 速 的 网 流 存储 .索引 和 在 线 查 询 的 系统 。Hyperion 系统 能 
够 在 一 台 普 通 计 算 机 上 ,每 秒 记 录 大 于 1 000 000 个 网 包 , 同 时 支持 在 保证 查询 性 能 的 同 
时 每 秒 进行 200 000 个 网 包 的 索引 。Hyperion 实现 的 是 面向 流 的 文件 系统 ,使 磁盘 能 保 
证 连续 读 写 ,从 而 达到 最 高 的 写 速率 。 同 时 Hyperion 也 提出 了 自己 的 多 层级 索引 方案 。 

2. 应 用 级 方案 

应 用 级 方案 是 指 在 常用 的 操作 系统 上 构建 网 络 流量 归档 查询 系统 的 解决 方案 。 这 样 
的 方案 使 系统 能 够 与 其 他 功能 很 好 地 兼容 。 如 果 采 用 系统 级 方案 ,意味 着 设备 只 能 用 作 
唯一 用 途 , 如 果 要 附加 即使 很 小 的 一 个 功能 ,也 需要 开发 适应 该 系统 的 新 的 软件 。 而 使 用 
应 用 级 方案 ,能 够 和 其 他 功能 并 存 , 也 便于 系统 的 管理 。TMI203 是 应 用 级 方案 的 代表 。 
它 的 设计 思想 是 设计 高 效 的 网 络 流量 的 记录 和 查询 工具 。TM 提出 了 对 流 截断 基本 不 会 
损失 网 络 流量 中 蕴藏 的 信息 量 的 论断 ,并 且 给 出 了 很 好 的 验证 。 而 对 流 进行 截断 操作 大 
大 降低 了 要 处 理 的 流量 ,使 得 系统 能 够 胜任 Gbps 级 网 络 的 流量 归档 查询 工作 。 


1.2.3 对 研究 现状 的 分 析 


无 论 是 网 流 信息 归档 ,还 是 网 流 归档 ,两 者 的 数据 形式 和 特点 都 是 相似 的 : 都 是 海量 
的 、 流 状 的 ,不 再 更 改 的 数据 。 系 统 的 设计 都 是 要 提高 对 这 样 的 数据 进行 存储 和 查找 的 性 
能 ,因此 可 以 放 在 一 起 做 比较 。 总 结 已 有 的 研究 ,根据 数据 存储 和 索引 的 方式 进行 分 类 ， 


得 到 表 1.1. 
表 1.1 不 同方 案 的 对 比 表 格 
方 案 原始 文件 通用 数据 库 专用 数据 库 或 系统 

优点 存储 速度 快 查询 语句 丰富 高 效 
缺点 查询 实时 性 效率 较 低 

TM Neye Gigascope 
代表 系统 nfdump Combining Hyperion 

OSU flow-tools Bitmap Database 

N cpm = 高 

开发 难度 及 说 明 eh eia sa iai 需要 设计 和 实现 专用 的 数据 库 
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通过 表 1.1 可 以 发 现 ,只 有 构建 专用 的 数据 库 或 系统 才能 取得 最 好 的 存储 和 查询 性 
能 。 但 是 要 完成 100Mbps 一 1Gbps 网 流 的 存储 ,要 求 每 秒 记 录 12. 5MB~125MB 的 数据 
量 , 而 普通 硬盘 的 写 瞬时 速率 最 高 在 60MBps 左右 , 写 大 文件 的 速率 在 30 一 40MBps, 写 
小 文件 的 速率 远 小 于 10MBps。 因 此 完成 这 样 的 网 络 环境 下 的 网 流 存储 ,普通 硬盘 很 难 
支持 。 同 时 ,1Mbps 的 流量 一 天 产生 的 数据 量 为 10. 8GB,100Mbps 的 流量 一 天 产生 的 数 
据 量 超过 1TB, 这 样 的 数据 量 在 1TB 硬盘 普及 的 今天 ,也 是 无 法 接受 的 。 同 时 ,100MBps 
意味 着 每 秒 要 处 理 0. 1—1M 个 网 包 , 这 对 计算 机 处 理 器 的 性 能 也 是 一 个 极 大 的 挑战 。 因 
此 在 一 台 普 通 计算 机 上 将 这 样 级 别 的 流量 完 完整 整地 存 下 来 ,是 非常 困难 的 一 件 事情 。 
因此 人 们 不 禁 要 探讨 , 真 的 需要 将 所 有 的 网 包 都 记录 下 来 吗 ? 网 流 中 什么 信息 是 有 效 的 ? 
什么 信息 又 是 可 以 舍弃 的 呢 ? 

但 是 因为 存储 空间 的 限制 ,如 果 对 网 流 中 的 信息 进行 舍弃 ,那么 舍弃 的 极限 ,就 是 回 
退 为 流 信 息 的 记录 。 我 们 想 要 将 网 络 流量 记录 下 来 是 因为 不 满足 于 流 信息 的 记录 所 提供 
的 信息 量 。 

流 信息 只 是 简单 地 对 网 络 中 的 一 个 流 进行 一 个 概括 ,从 何 处 来 , 往 何 处 去 ,什么 时 
间 开 始 , 持 续 了 多 久 。 而 实际 流量 中 却 蕴 藏 了 各 层 协 议 的 信息 ,尤其 是 应 用 层 的 数据 。 
在 事件 发 生 后 的 回溯 调查 过 程 中 ,仅仅 掌握 流 信 息 很 难 进行 细致 的 考究 。 而 如 果 拥 有 
所 有 信息 ,人 们 能 在 事后 对 安全 事件 做 更 加 深入 的 调查 ,因此 记录 实际 流量 是 很 有 价 
值 的 。 

Time Machine 系统 设计 提出 了 网 络 流量 在 记录 时 可 以 截断 ,而 同时 保留 绝 大 部 分 信 
息 的 方法 。 如 果 采 用 流 截断 的 方法 ,对 于 每 个 流 只 存储 流 开始 的 一 部 分 数据 ,而 舍弃 后 面 
的 网 包 , 大 大 降低 了 系统 对 磁盘 读 写 性 能 ,存储 空间 和 运算 能 力 的 要 求 。 


1.3 互联 网 流量 大 数据 平台 


以 上 只 是 对 单条 链 路 或 者 是 单个 企业 网 络 的 流量 归档 与 查询 ,如 果 要 对 运营 商 的 网 
络 整体 流量 归档 与 分 析 , 面 对 的 是 PB 级 流量 大 小 ,就 必须 采用 大 数据 的 平台 架构 和 分 析 
方法 。 

以 中 国联 通 公司 为 例 ,对 于 移动 用 户 上 网 记录 而 言 , 当 前 每 日 的 上 网 记录 数据 生成 量 
超过 300 亿 条 ,每 日 数据 量 约 8. 4TB。 每 月 的 上 网 记录 数 达到 万 亿 条 ,存储 容量 达到 PB 
级 。 并 且 移动 互联 网 用 户 访问 流量 在 快速 增长 (大 约 每 半年 翻 一 番 ), 由 此 引发 的 上 网 记 
录 数 据 将 进一步 猛 增 。 

基于 Hadoop 的 分 布 式 存储 架构 ,利用 面向 列 的 HBase 数据 库 , 实 现 海量 数据 的 高 
效 检索 和 分 析 处 理 。 该 架构 使 用 廉价 的 PC 服务 器 和 存储 实现 了 系统 的 高 可 靠 性 , 相 比 
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IOE(IBM 小 型 机 、Oracle 数据 库 .EMC2 高 端 存储 ) 的 传统 方案 ,可 以 节省 开销 。 

Hadoop 是 以 Google 公司 的 GFS 为 样板 的 开源 实现 ,已 经 成 为 事实 的 标准 。 
Hadoop 2.0 YARN 更 支持 了 实时 计算 ,功能 更 加 强大 。 

Hadoop 是 一 个 分 布 式 系统 基础 架构 。Hadoop 实现 了 一 个 分 布 式 文件 系统 
(Hadoop Distributed File System,HDFS)。HDFS 有 高 容错 性 的 特点 ,并 且 设计 用 来 部 
署 在 低廉 的 (Low-cost) 硬 件 上 。 而 且 它 提供 高 传输 率 (High Throughput) 来 访问 应 用 程 
序 的 数据 ,适合 那些 有 超大 数据 集 的 应 用 。 

图 1.1 描述 了 Hadoop 各 层 系统 之 间 的 层次 ,其 中 HBase(Hadoop Database) 位 于 结 
构 化 存储 层 ,Hadoop HDFS(Hadoop Distributed File System) 为 HBase 提供 了 高 可 靠 性 
的 底层 存储 支持 ,Hadoop MapReduce 为 HBase 提供 了 高 性 能 的 计算 能 力 ,Zookeeper 为 
HBase 提供 了 稳定 协同 服务 和 错误 纠正 机 制 。 此 外 ,Pig 和 Hive 为 HBase 提供 了 高 层 语 
言 支持 ,使 得 在 HBase 上 进行 数据 统计 处 理 变 得 非常 简单 。 
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* 3 
5 f 
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1.1 基于 Hadoop 的 大 数据 系统 层次 


HBase 基于 可 以 横向 扩张 的 表 存 储 特 性 ,可 以 利用 HBase 技术 在 廉价 PC Server 上 
搭建 起 大 规模 结构 化 存储 集群 ,通过 不 断 增 加 廉价 PC Server 增加 计算 和 存储 能 力 ,这样 
就 可 支持 Terabyte 到 Petabyte 级 的 海量 数据 存储 和 高 速 读 写 。 基 于 Hadoop 的 HBase 
数据 库 系统 如 图 1. 2 所 示 o 

对 图 1.2 中 的 主要 部 件 介绍 如 下 。 

1. HMaster 

HBase 中 可 以 启动 多 个 H Master. ilii Zookeeper 的 Master 选举 机 制 保证 总 有 一 个 
Master 运行 ,HMaster 在 功能 上 主要 负责 Table 和 Region 的 管理 工作 。 

2. HRegionServer 
主要 负责 响应 用 户 1/0 请 求 ,向 HDFS 中 读 写 数据 ,是 HBase 中 最 核心 的 模块 。 
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图 1.2 基于 Hadoop 的 Hbase 数据 库 系 统 


HRegionServer 内 部 管理 了 一 系列 HRegion 对 象 , 每 个 HRegion 对 应 了 Table 中 的 一 个 
Region. HRegion 中 由 多 个 HStore 组 成 。 每 个 HStore 对 应 了 Table 中 的 一 个 Column 
Family 的 存储 。 


3. Zookeeper 


Zookeeper 中 除了 存储 了 -ROOT- 表 的 地 址 和 HMaster 的 地 址 ,HRegionServer 会 把 
自己 注册 到 Zookeeper 中 ,使 得 HMaster 可 以 随时 感知 到 各 个 HRegionServer 的 健康 状 
态 。 此 外 ,Zookeeper 可 以 避免 HMaster 的 单 点 问题 。 

4. Client 


使 用 HBase 的 RPC 机 制 与 HMaster 和 HRegionServer 进行 通信 ,对 于 管理 类 操作 ， 
Client 与 HMaster 进行 RPC; 对 于 数据 读 写 类 操作 ,Client 与 HRegionServer 进行 RPC. 

为 此 ,中 国联 通 公 司 采 用 了 基于 开源 的 Hadoop/HBase 作为 上 网 记录 的 存储 方案 。 
基于 Hadoop/HBase 上 网 系统 为 中 国联 通 公 司 客服 人 员 提 供 上 网 记录 快速 查询 服务 , 解 
决 流量 投诉 问题 ;基于 MapReduce 和 Hadoop/ HIVE 数据 仓库 技术 ,系统 实现 了 统计 报 
表 和 用 户 行为 分 析 服 务 ;基于 Hadoop/HBase, 系 统 可 以 提供 IP 地 址 溯源 服务 。 移 动用 
户 上 网 记录 检索 与 应 用 分 析 系 统 如 图 1. 3 所 示 。 

当前 大 数据 实时 分 析 平 台 是 目前 研究 的 热点 ,其 中 以 Twitter storm 为 代表 的 流 式 
计算 是 当前 的 一 个 趋势 。 
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图 1.3 移动 用 户 上 网 记录 检索 与 应 用 分 析 系 统 


1.4 国际 前 沿 进展 


互联 网 流量 大 数据 涉及 多 个 计算 机 学 科 方 向 ,包括 计算 机 系统 结构 、 计 算 机 网 络 、 数 
据 库 系统 和 人 工 智能 等 。 其 目标 是 要 解决 流量 大 数据 的 存储 、 索 引 查 询 和 分 析 挖 掘 等 重 
要 科学 工程 问题 。 

国际 流量 监管 与 分 析 (TMA) 会 议 中 至 今 已 经 举办 了 6 届 , 是 关于 网 络 流量 监管 与 
分 析 的 正统 会 议 。TMA 2012 会 上 提出 的 TSDBr 是 一 种 压缩 时 间 序 列 的 方法 , 相 比 于 
RRD 方法 和 Reddis 数据 库 , 具 有 检索 快 、 存 储 空间 小 的 优点 。 

国际 测量 大 会 CIMC) 会 议 c 听 也 有 流量 分 析 的 专栏 ,但 是 主要 以 网 络 测量 和 分 析 方 法 
为 主 。RasterZip55 是 针对 网 流 检索 压缩 的 一 种 高 效 压缩 格式 和 方法 。 

NET-FLi 系统 5 是 超大 规模 数据 库 (VLDB'2012) 会 议 上 提出 的 针对 网 流 查询 与 处 
理 的 数据 库 系统 ,采用 COMPAX 的 位 图 压缩 机 制 , 用 在 线 近 邻 敏 感 散 列 函数 (oLSH ) 重 
排序 流 记 录 条 目 , 实 现在 线索 引 压 缩 与 档案 化 流 记录 。 
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1.5 小 结 


随 着 互联 网 流量 的 激增 ,对 网 络 流量 的 记录 和 分 析 是 一 个 挑战 问题 ,传统 通过 流量 记 


录 和 归档 查询 系统 ,已 经 满足 不 了 运营 管理 整个 ISP 网 络 的 需求 。 而 大 数据 平台 技术 的 
兴起 ,为 记录 、 处 理 和 分 析 互 联网 流量 提供 了 新 的 方法 与 手段 ,为 充分 挖掘 流量 大 数据 的 


价值 黄 定 了 良好 的 基础 。 
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互联 网 流量 测量 与 带宽 管理 


随 着 互联 网 用 户 的 不 断 增 加 和 用 户 需 求 的 不 断 变 化 ,互联 网 上 的 应 用 类 型 也 在 发 生 
着 日 新 月 异 的 变化 。 各 种 类 型 的 业务 流量 不 断 增长 ,网 络 的 负载 不 断 加 重 ,互联 网 流量 测 
量 与 管理 的 重要 性 日 渐 突 出 。 

网 络 测量 是 网 络 行为 学 研究 的 主要 手段 。 通 过 网 络 测量 ,掌握 Internet 行为 规律 是 
进行 网 络 建 模 、 网 络 规划 、 网 络 管理 和 网 络 安全 等 研究 工作 的 重要 前 提 。 在 当前 Internet 
的 带宽 .拓扑 和 用 户 数 的 规模 都 爆炸 式 增长 的 情况 下 ,流量 测量 遇 到 了 很 大 的 挑战 ,许多 
新 的 算法 、 硬 件 方案 相继 提出 。 测 量 算法 除了 最 简单 的 原始 记录 算法 ,主要 代表 有 采样 算 
$ „Multi-Stage Filter 算法 和 Multi-Resolution Space Code Bloom Filter 算法 等 。 

在 掌握 了 网 络 测量 技术 的 基础 上 ,如 何 通过 合适 的 流量 管理 技术 , 即 网 络 应 用 协议 的 
识别 与 带宽 管理 技术 ,来 协调 网 络 应 用 与 安全 ,带宽 增长 与 业务 收益 .网 络 扩容 与 用 户 体 
验 之 间 的 关系 ,是 网 络 管理 者 与 运营 者 吸 待 解决 的 重要 挑战 。 

本 章 将 介绍 网 络 流量 测量 与 管理 的 基本 概念 和 关键 技术 ,对 主流 的 流量 测量 技术 、 算 
法 和 开源 流量 管理 系统 ,以 及 商用 流量 管理 系统 进行 介绍 ,并 提出 一 种 协同 式 的 分 布 流 量 
管理 系统 ,分 布 式 的 部 署 流 量 管理 子 系统 ,通过 分 析 控 制 中 心 协同 检测 和 管理 流量 ,可 以 
有 效 地 提高 网 络 流量 管理 效率 ,提高 未 知 网 络 协议 的 识别 率 , 有 效 地 检测 和 防止 DDoS 
攻击 。 


2.1 流量 测量 概述 


2.1.1 Internet 流量 测量 


流量 测量 通过 记录 网 络 上 流 (Flow) 的 流量 值 , 回 答 “Who, Where, When, How. 
What” 的 问题 , 即 什么 用 户 在 什么 地 址 、 什 么 时 间 , 用 什么 方式 ,做 了 什么 事情 。 
网 络 流量 测量 可 以 用 于 : 计 费 (例如 , 按 流 量 计 费 、 针 对 用 户 计 费 等 ) .流量 工程 (根据 
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链 路 上 的 流量 特征 进行 路 由 规划 ,以 达到 负载 均衡 ,提高 网 络 性 能 ) 和 故障 诊断 (例如 , 根 
据 流 量 异常 发 现 网 络 路 由 存在 的 问题 等 ) 等 。 

流量 测量 的 一 个 最 重要 的 应 用 就 是 入 侵 检 测 系 统 (Intrusion Detection System, 
IDS) 。 众 所 周知 , 现 有 的 IPv4 网 络 是 一 个 缺乏 安全 基础 的 网 络 ,蠕虫 爆发 (2000 年 以 后 
的 RedCode, Slammer 等 病毒 都 造成 了 巨大 的 损失 )、 黑 客 攻击 (DDoS 攻击 曾经 造成 数 家 
大 型 网 站 无 法 运作 ) 愈 演 愈 烈 。 而 根据 流量 测量 的 结果 中 某 个 IP .端口 或 者 ICMP 报 文 
的 流量 异常 可 以 发 现 主机 扫描 、 端 口 扫描 等 ,判断 并 阻止 网 络 入 侵 。 

因此 ,进行 网 络 流 量 测量 的 研究 ,对 于 了 解 网 络 特点 ,提高 网 络 性 能 ,阻止 网 络 攻击 有 
重要 的 意义 。 


2.1.2 流量 测量 的 难点 


当前 网 络 发 展 的 趋势 是 规模 越 来 越 大 (在 Internet 骨干 网 上 一 小 时 内 的 流 数目 可 达 
1. 7 10) ,带宽 越 来 越 宽 (10Gbps 甚至 更 高 )。 大 规模 高 速 网 络 对 流量 测量 提出 了 新 的 
要 求 : 能 够 线 速 处 理 到 达 的 大 量 网 包 。 这 就 必须 研究 新 的 算法 和 硬件 平台 。 


2.1.3 流量 测量 的 目的 


本 童 首先 比较 了 目前 学 术 界 已 经 提出 的 一 些 新 的 测量 算法 ,分 析 这 些 算法 的 优 劣 ,时 
间 、 空 间 复杂 度 等 ,从 中 选择 适合 高 速 网 络 的 测量 算法 。 

其 次 ,利用 通用 多 核 平台 进行 流量 测量 。 多 核 处 理 器 采用 了 多 内 核 并 行 结 构 , 硬 件 多 
线程 技术 等 适应 网 络 网 包 的 处 理 , 是 当前 流量 测量 的 主要 平台 。 

目前 利用 流量 测量 进行 人 侵 检 测 的 手段 ,有 考察 IP、 端 口 流量 异常 ,ICMP 目的 地 不 
可 达 报 文 数量 异常 ,网 络 总 流量 的 小 波 变换 参数 突变 等 。 

此 外 ,当前 的 研究 热点 还 有 利用 网 络 自 相 似 特性 进行 流量 测量 等 。 


2.1.4 网 络 测量 与 流量 测量 


流量 测量 是 网 络 测量 的 一 部 分 。 网 络 测量 是 指 遵照 一 定 的 方法 和 技术 ,利用 软件 和 
硬件 工具 来 测试 或 验证 表征 网 络 性 能 的 指标 的 一 系列 活动 的 总 和 。 网 络 测量 的 对 象 除了 
流量 以 外 ,还 包括 网 络 拓 扑 、 路 由 、 带 宽 和 延 时 等 。 

通过 网 络 测量 ,掌握 Internet 的 行为 是 网 络 建 模 、 网 络 规划 、 网 络 管理 和 网 络 安全 、 新 
网 络 协议 和 网 络 应 用 设计 等 诸多 研究 工作 的 重要 前 提 。 不 测量 就 无 法 理解 网 络 , 不 测量 
就 无 法 建立 一 个 有 效 的 模型 。 从 研究 的 实质 上 看 ,网 络 测量 可 以 把 因特网 从 技术 上 升 到 
科学 ,并 且 能 够 更 好 地 指导 应 用 。 尤 其 在 今天 ,Internet 的 带宽 .拓扑 和 用 户 数 的 规模 都 
爆炸 式 增 长 ,上 述 工 作 更 是 必 不 可 少 。 

鉴于 网 络 检测 的 重要 性 ,IETF 组 织 已 建立 了 IPFIXCIP 流 信 息 输 出 ) 工 作 组 (关注 IP 
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流 描述 和 信息 导出 ) 和 PSAMPE 工 作 组 (关注 网 包 采 样 ) ,并 提出 了 许多 相关 的 RFC, 如 
RFC 3917 (Requirements for IP Flow Information Export), RFC 3955 (Evaluation of 
Candidate Protocols for IP Flow Information Export (IPFIX)) ,以 及 更 多 的 RFC 草案 。 


2.1.5 流量 测量 的 分 类 


网 络 流量 测量 从 实时 性 角度 考虑 ,可 以 分 为 实时 测量 和 离线 测量 。 

网 络 流量 测量 从 测量 方式 考虑 ,可 以 分 为 主动 测量 和 被 动 测量 。 主 动 测量 (Active 
Measurement) 主动 生成 网 包 并 插入 网 络 中 ,记录 其 传输 过 程 的 参数 ,例如 ,为 了 测量 节点 
间 的 延 时 ,向 网 络 中 发 送 ping 包 等 。 被 动 测量 (Passive Measurement) 被 动 观察 网 络 中 的 
网 包 , 不 生成 新 的 网 包 。 

网 络 流量 测量 从 流量 测量 的 环境 考虑 ,又 可 以 分 为 有 线 和 无 线 环境 的 测量 等 ;从 实现 
的 方式 考虑 , 则 有 硬件 实现 和 软件 实现 等 ;从 测量 的 范围 考虑 ,又 可 分 为 全 部 测量 和 部 分 
测量 (例如 ,只 记录 大 流 或 者 采样 到 的 流 ) 等 。 

在 本 章 中 , 主要 讨论 的 是 有 线 环境 中 的 实时 流量 测量 ,采用 被 动 测量 方式 。 


2.1.6 离线 测量 与 实时 测量 

离线 测量 指 离线 分 析 存 储 下 来 的 网 包 ,离线 测量 模型 如 图 2. 1 所 示 。 
EET 
ET PET 


获取 五 元 组 及 
包 长 信息 


网 络 数据 流 > 


图 2.1 离线 测量 模型 


实时 测量 指 实时 处 理 网 络 网 包 , 实 时 测量 模型 如 图 2. 2 所 示 。 


aR > CREE» BOCK | [ 提取 特定 流 的 流量 “>| 流量 信息 | (OE 


图 2.2 实时 测量 模型 
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离线 测量 的 优点 是 不 增加 网 包 通 过 时 的 延迟 ,但 在 发 现 入 侵 时 ,异常 网 包 已 经 进入 子 
网 。 而 实时 测量 则 保证 了 每 个 网 包 都 必须 通过 检查 才能 放行 ,能 更 好 地 控制 网 络 流量 。 

在 算法 评估 中 ,选择 实时 测量 模型 ,因为 它 能 充分 发 挥 多 核 处 理 器 的 并 行 性 ,并 且 满 
足 入 侵 检测 和 阻止 的 要 求 。 


2.2 现 有 算法 研究 工作 


2.2.1 原始 记录 算法 及 其 存在 的 问题 


原始 算法 就 是 最 简单 的 流量 测量 的 方法 ,为 每 个 流 保存 一 个 计数 器 ,每 次 接收 到 一 个 
包 后 ,遍历 到 相应 的 计数 器 并 增加 数值 。 为 了 统计 流量 的 方便 。 选 择 Hash 表 的 数据 结 
构 。 如 果 出 现 Hash 冲突 , 则 用 链表 把 冲突 的 元 素 连接 起 来 。 这 种 方法 存在 3 个 问题 。 

(1) 空间 复杂 度 大 。 最 简单 的 流 记 录 由 流标 识 和 流量 值 组 成 。 直 接 记 录 每 个 流 的 五 
元 组 需要 13B( 源 IP, AH IP 各 需 4B, 源 端口 .目的 端口 各 需 2B, 协 议 类 型 需 1B) ,记录 流 
量 约 需 5B( 考 虑 一 个 10Gbps 的 网 络 一 个 小 时 可 能 的 最 大 流量 ,以 字 节 (B) 为 计数 单位 ， 


3.6 X10" P > "m y 
需要 长 度 为 log (35719 ) sop 的 计数 器 ), 故 共 需 18B。 因 此 当 网 络 中 一 小 时 的 流 的 


数目 达到 1.7X10* 时 ,记录 一 个 小 时 内 每 个 流 的 流量 ,需要 144Mbit 的 存储 空间 。 一 天 
的 流量 记录 需要 的 空间 在 Gb 以 上 。 

(2) 时 间 复 杂 度 大 。 由 于 为 每 一 个 流 都 保存 了 单独 的 计数 器 ,接收 到 每 一 个 包 都 需 
要 更 新 计数 器 ,因此 处 理 包 的 时 间 复 杂 度 不 小 。 而 在 10Gbps 以 太 网 络 中 ,如 果 要 达到 线 
速 转发 ,最 坏 情 况 下 ( 即 处 理 包 长 40B 的 最 小 包 ) ,对 每 个 包 的 处 理 时间 为 纳 秒 级 别 : TS 


4 一 32ns。 因 此 ,即使 是 处 理 每 个 包 的 时 间 空间 复杂 度 随 收 到 网 包 效 目 线 性 增长 


的 算法 都 不 能 满足 要 求 一 一 当 网 包 数 目 越 来 越 大 时 ,复杂 度 会 增 大 到 不 可 接受 ,例如 ,使 
用 最 大 堆 来 寻找 流量 最 大 的 个 流 等 (复杂 度 为 2N 十 kXlog(N))。 只 有 O(1) 复 杂 度 的 
算法 可 以 被 接受 。 

CD 存储 器 的 选择 。 在 记录 流量 时 ,需要 遍历 内 存 以 找到 正确 的 流 记录 ,修改 流 记录 
并 写 回 内 存 , 而 内 存 访问 的 延迟 是 很 大 的 。 若 使 用 SRAM 存储 ,速度 快 ,可 以 达到 纳 秒 级 
别 , 但 是 价格 贵 ,只 能 作为 Cache 或 者 少量 数据 存储 使 用 ;DRAM 价格 便宜 ,可 以 大 量 使 
用 ,但 是 速度 慢 , 影 响 系统 吞吐 率 。 这 种 状况 加 剧 了 前 两 个 问题 的 困难 程度 。 


2.2.2 解决 问题 的 思 


解决 上 述 困 难 有 3 个 思路 。 
CD 改进 测量 平台 。 例 如 ,采用 线程 并 行 的 方法 减少 内 存 访问 的 代价 , 即 多 线程 并 
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行 , 当 某 一 个 线程 开始 内 存 操作 时 ,进入 挂 起 状态 ,直到 内 存 操作 完毕 的 信号 到 达 。 期 间 
CPU 上 运行 其 他 线程 的 计算 ,从 而 提高 了 CPU 的 利用 率 ,实际 上 “隐藏 "了 访 存 的 延迟 。 
Intel 多 核 处 理 器 的 硬件 多 线程 是 一 个 典型 例子 。 

(2) 不 再 处 理 每 一 个 网 包 。 方法 之 一 是 以 一 定 比 例 采 样 ,只 处 理 采 样 到 的 网 包 。 

(3) 不 再 为 每 个 流 保存 一 个 记录 。 这 样 既 节省 了 空间 ,又 减少 了 访问 内 存 的 开销 。 例 
如 ,只 记录 流量 超过 一 定 阔 值 的 流 , 这 样 做 的 实质 是 在 流 中 统计 出 现 频率 高 的 元 素 ,这 是 一 
个 古老 的 算法 问题 。 或 者 采用 特殊 的 数据 结构 ,减少 内 存 , 尤 其 是 快速 的 sram 需求 。 


2.2.3 采样 算法 


采样 算法 体现 了 思路 2 中 的 思想 ,典型 代表 是 InMon 公司 开创 的 sFlow4 技术 ， 
CISCO 的 netflow? ,以 及 各 种 变形 ,例如 , 自 适应 采样 等 。 采 用 sFlow 的 算法 为 代表 评价 
和 实现 采样 技术 。 

sFlow 的 采样 分 为 对 网 包 采 样 和 定期 发 送 两 个 部 分 。 对 网 包 采 样 指 每 个 包 中 采样 
一 个 包 , 实 现 方法 之 一 是 在 一 次 采样 以 后 ,生成 一 个 随机 数 skip, 之 后 每 接收 到 一 个 包 , 将 
skip 减 1, 当 减 到 0 时 采样 这 个 包 , 同 时 再 随机 生成 一 个 skip ffi ,继续 循环 ,sFlow 采样 示 
意图 如 图 2. 3 所 示 。 

BER skip 序列 满足 最 终 的 采样 率 s( 即 采样 到 的 包 和 总 数 之 比 ) 为 给 定 值 , 男 外 还 应 
该 比较 均匀 ,需要 考虑 网 络 流 的 特性 ,例如 , 突 发 性 .长 相关 性 等 。 这 里 随机 数 序列 skip 
的 生成 有 很 多 种 方法 ,其 中 的 一 个 替代 方法 就 是 设置 一 个 靖 值 +, 生 成 一 个 随机 数 Ce: 
1 一 m) , 若 小 于 或 等 于 阅 值 则 采样 ,大 于 辣 值 则 不 采样 。 这 样 采样 率 即 为 t/m 


2.2.4 Multi-Stage Filter 算法 


并 行 过 滤器 的 技术 体现 了 2.2.2 节 思 路 3 的 思想 ,是 Cristian Estan 和 George 
Varghese 提出 来 的 ,基本 想法 是 : 抓 大 放 小 (Focusing on the Elephants，Ignoring the 
Mice) 。 使 用 类 似 Bloom Filter 的 方法 ,判断 并 记录 大 流 。 算 法 的 依据 是 Internet 流量 的 
Zipf 分 布 : 在 骨干 网 上 ,9% 的 流 占 据 了 99% 的 流量 。 因 此 ,记录 9% 的 大 流 就 足以 反映 
网 络 流量 的 大 致 面貌 ,这 对 于 检测 主机 扫描 、 端 口 扫描 等 已 经 足够 ,从 而 大 大 减少 了 计算 
量 和 空间 需求 。 

算法 判定 大 流 (Elephants Traffic) 的 方法 如 下 。 

在 SRAM 中 设置 个 向 量 Vi, 每 个 Vi; 由 6 个 计数 器 组 成 。 对 每 个 接收 到 的 包 的 标 
识 符 下 ,进行 n 次 相互 独立 的 hash: K; 二 hi(F) ,将 流下 的 流量 累加 到 V; 058 K ; 位 对 应 
的 计数 器 Ci(K;)。 

若 CiCK;) 的 值 超过 阔 值 (例如 , 链 路 总 流量 的 0.1%), 就 说 它 通过 了 第 i 个 过 滤器 。 
通过 所 有 过 滤器 的 流 被 认定 为 大 流 并 记录 入 DRAM。 并 行 多 级 过 滤器 如 图 2.4 Bron 


( 
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Cristian Estan 等 在 同一 篇 论文 里 提出 另 一 个 类 似 的 算法 ,只 有 那些 通过 了 前 面 所 有 
过 滤器 的 流 才 会 进入 下 一 阶段 的 过 滤器 。 串 行 多 级 过 滤器 如 图 2.5 所 示 。 


Stage 1 Stage 2 Stage 3 


Packet with Flow 
- = h3(F) Identified as | Memory 
Five Tuples F Large Flow 
hl(F) h2(F) 


图 2.5 串 行 多 级 过 滤器 (Serial Multi-Stage Filter) 


2.2.5 Multi-Resolution Space Code Bloom Filter 算法 


多 分 辩 率 空间 编码 Bloom 过 滤器 算法 也 体现 了 2. 2. 4 节 思 路 3 中 的 思想 。 全 称 为 
Multi-Resolution Space-Code Bloom Filter, 是 Abhishek Kumar 等 人 提出 的 一 种 用 于 计 
数 的 数据 结构 。 

先 简 单 介 绍 用 于 字符 串 匹 配 的 Bloom Filter 算法 。Bloom Filter 算法 要 解决 的 问题 
是 : 有 一 个 字符 串 集 {C:} G=1~n) , 待 查询 的 字符 串 zx, 问 工 是 否 属于 {C;) 。 

设置 一 个 长 度 为 m 的 位 向 量 BV,k 个 相互 独立 的 hash K% H; (j=1~k). tA hash 
函数 的 取 值 范 围 是 [0,m 一 1]。 初 始 化 时 ,把 hash 函数 H; 作用 于 C; ,得 到 H;CCO ,将 BV 
向 量 的 第 H; (Ci;) 位 置 1。 用 个 hash 函数 把 每 个 C; 都 操作 一 遍 , 得 到 设置 好 的 BV. 

查询 时 ,将 上 个 hash 函数 作用 于 xz, 得 到 Hj (zx),(j 二 1~~k)。 查 询 BV 上 每 个 H;(x) 
位 ,如 果 都 为 1, 则 工 很 可 能 属于 {Ci) ,否则 ,xz 肯定 不 属于 {C;}。 

当 hash 函数 完全 随机 且 无 关 的 时 候 , 如 果 p= eh" MRAR f 为 

kn \k 
f= (1-072) ) ~ (1— e") = (1— p) 

Bloom Filter 是 一 个 时 间 和 空间 折 中 很 好 的 匹配 算法 ,Kumar 等 将 其 改进 成 Space 
Code Bloom Filter 用 于 流 统计 ,其 特点 如 下 。 

i L 4 Bloom Filter(BF) ,对 每 一 个 流标 识 符 下 ,随机 选择 一 个 序号 iG—1—LD) ,将 下 
插入 BF, 中 ( 即 用 BF; 的 个 hash 函数 作用 于 下 ,将 所 得 结果 对 应 的 个 BV, 的 位 置 上 1)。 

查询 : 若 要 查询 某 个 流下 出 现 了 多 少 次 , 则 查询 每 个 BF 是 否 包 含 F, 包 含 F 的 BF 个 
数 , 即 为 流下 出 现 次数 。 

但 是 当 每 个 BF 都 较 满 的 时 候 , 即 BV 向 量 几 乎 都 置 1, 流 的 出 现 次 数 就 被 低估 了 。 
MRSCBF(Multi-Resolution SCBF ,多 分 辩 率 SCBF) 解 决 了 这 个 问题 。 

MRSCBF 的 思路 是 : 设置 ~ 个 SCBF ,插入 元 素 下 的 办 法 是 以 一 定 概率 方 (一 1 一 ”) 
将 下 插入 每 个 SCBF。 概 率 p; 大 的 SCBF“* 分 辩 率 ”高 ,概率 小 的 “分 辩 率 ” 低 。 当 pj; = 
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c; —1 时 ,由 于 分 辩 率 相互 搭界 ,能 很 好 地 记录 流下 。 
查询 : 查询 每 个 SCBF 中 下 的 出 现 次 数 , 结 合 概率 p; ,用 最 大 似 然 估计 的 方法 估算 下 
出 现 的 次 数 。 


2.2.6 其 他 算法 
其 他 较 有 影响 的 算法 还 有 Bitmap 算法 等 ,在 此 不 详 述 。 
2.2.7 工业 界 的 解决 方案 


各 大 公司 已 经 有 很 多 的 流量 测量 的 产品 上 市 ,典型 代表 有 Cisco 公司 的 Netflow、 
NetScout 公司 的 nGenius 系统 。 

其 中 ,Cisco 公司 的 Netflow 已 经 成 为 实际 上 的 标准 。Netflow 的 IP 网 包 导 出 格式 
已 经 成 为 RFC( 例 如 ,RFC3954: netflow version 9 等 )。 随 着 IETF 对 IPFIX 的 标准 化 ， 
网 络 流量 分 析 的 数据 采集 协议 也 将 逐步 转移 到 NetFlow v9/IPFIX 标准 上 来 。 其 他 公司 
如 Juniper 也 基于 NetFlow v9 在 路 由 器 上 实现 了 专 有 的 流量 测量 模块 。 


2.2.8 NetFlow 介绍 


NetFlow 技术 最 早 是 于 1996 年 由 Cisco 公司 的 Darren Kerr 和 Barry Bruins 发 明 
的 ,并 于 同年 5 月 注册 为 美国 专利 。NetFlow 技术 首先 被 用 于 网 络 设 备 对 数据 交换 进行 
加 速 ,并 可 同步 实现 对 高 速 转发 的 IP 数据 流 (Flow) 进 行 测量 和 统计 。 经 过 多 年 的 技术 
演进 ,NetFlow 原来 用 于 数据 交换 加 速 的 功能 已 经 逐步 由 网 络 设备 中 的 专用 ASIC 芯片 
实现 ,而 对 流 经 网 络 设备 的 TP 数据 流 进行 测量 和 统计 的 功能 也 已 更 加 成 熟 , 并 成 为 了 当 
今 互 联网 领域 公认 的 最 主要 的 IP/MPLS 流量 分 析 、 统 计 和 计 费 行业 标准 。NetFlow f£ 
术 能 对 IP/MPLS 网 络 的 通信 流量 进行 详细 的 行为 模式 
分 析 和 计量 ,并 提供 网 络 运 行 的 详细 统计 数据 。 

NetFlow 技术 已 经 完全 融入 了 Cisco IOS 操作 系统 
中 。 较 新 内 核 的 Cisco 公司 的 设备 都 内 置 有 NetFlow 
功能 ,可 以 作为 测量 、 采 集 、 输 出 网 络 流量 和 流向 管理 信 
息 的 数据 采集 器 。NetFlow 子 卡 实际 上 是 为 交换 设备 
分 担 测量 功能 的 加 速 卡 ,以 达到 减轻 交换 设备 负担 的 
目的 。 

图 2. 6 是 支持 Catalyst 4500 系列 交换 机 的 NetFlow 
采集 (服务 ) 卡 示意 图 ,是 Catalyst 4500 系列 Supervisor Engine IV 或 V 的 一 个 可 选 子 卡 。 


2.2.9 NetFlow 卡 的 工作 原理 
NetFlow 卡 的 多 级 的 处 理 流程 如 图 2.7 所 示 。 


2.6 NetFlow 采集 (服务 ) 卡 
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图 2.7 NetFlow 的 处 理 流程 


NetFlow 采集 卡 可 以 和 Cisco 公司 的 交换 设备 合作 ,直接 获取 硬件 中 的 统计 数据 。 在 预 
处 理 阶 段 ,NetFlow 可 以 首先 根据 网 络 管理 的 需要 对 特定 级 别 的 数据 流 进行 过 滤 或 对 高 速 
网 络 端 口 进 行 网 包 抽样 ,这 样 可 以 减少 网 络 设备 的 处 理 负 荷 ,增加 全 系统 的 可 扩展 性 。 

在 后 处 理 阶段 ,在 新 的 flow 不 断 生成 的 同时 ,Cache 内 过 期 的 flow 记录 以 UDP 网 包 
等 方式 导出 至 某 一 预 设 IP 的 预 设 端口 。NetFlow 可 以 选择 把 采集 到 的 数据 流 原 始 统计 
信息 全 部 输出 ;也 可 以 选择 由 网 络 设备 自身 对 原始 统计 信息 进行 多 种 形式 的 数据 汇聚 ,只 
把 汇总 后 的 统计 结果 发 送 给 上 层 管理 服务 器 ,从 而 大 大 减少 网 络 设备 输出 的 数据 量 ,降低 
对 上 层 管理 服务 器 的 处 理 能 力 要 求 。 

NetFlow 根据 IP 网 包 的 7 个 域 , 即 源 IP 地 址 .目的 TP 地 址 、 源 通信 端口 号 .目标 通 
信 端 口号 ,第 三 层 协 议 类 型 .TOS 字 节 (DSCP) 、 网 络 设 备 输入 (或 输出 ) 的 迎 辑 网 络 端口 
(ifIndex) ,来 判断 是 否 属于 某 一 个 流 。 

在 NetFlow 技术 的 演进 过 程 中 ,Csico 公司 一 共 开发 出 了 5 个 主要 的 实用 版 本 。 

(1) NetFlow vl, Jy NetFlow 技术 的 第 一 个 实用 版 本 。 支 持 IOS 11. 1,IOS 11. 2, 
IOS 11.3 fil IOS 12.0, 但 在 如 今 的 实际 网 络 环境 中 已 经 不 建议 使 用 。 

(2) NetFlow v5。 增 加 了 对 数据 流 BGP AS 信息 的 支持 ,是 当前 主要 的 实际 应 用 版 
本 。 支 持 IOS 11. 1CA 和 IOS 12.0 及 其 后 续 IOS 版 本 。 

(3) NetFlow v7, CiscoCatalyst 交换 机 设备 支持 的 一 个 NetFlow 版 本 ,需要 利用 交 
换 机 的 MLS 或 CEF 处 理 引擎 。 

(4) NetFlow v8。 增 加 了 网 络 设 备 对 NetFlow 统计 数据 进行 自动 汇聚 的 功能 ( 共 支 
持 11 种 数据 汇聚 模式 ), 可 以 大 大 降低 对 数据 输出 的 带宽 需求 。 支 持 IOS12. 003) T, 
10S12. 0(32 S,IOS12. 1 及 其 后 续 IOS 版 本 。 

(5) NetFlow v9。 一 种 全 新 的 灵活 和 可 扩展 的 NetFlow 数据 输出 格式 ,采用 了 基于 
模板 (Template) 的 统计 数据 输出 。 方 便 添加 需要 输出 的 数据 域 和 支持 多 种 NetFlow 新 
功能 ,如 Multicase NetFlow、MPLS Aware Netflow、BGP Next Hop v9 和 Netflow for 
IPv6 等 。 支 持 IOS12.0(24)S 和 IOS12. 3T 及 其 后 续 IOS 版 本 。 在 2003 年 Cisco 公司 的 
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NetFlow v9 还 被 IETF HM 5 个 候选 方案 中 确定 为 IPFIX OP Flow Information 
Export) 标 准 。 
Netflow v5 的 输出 


1 Bytes | Contents 1 Description 1 


| 0-1 | version 


Li 
A 
2 
3 
3 
i 
H 
a 
4 
H 
8 


| 2-3 | count | Humber of flows exported in this packet (1-30) 1 


| 12-15 | unix nsecs | Residual nanoseconds since 0000 UTC 1970 1 


| 16-19 | flow sequence | Sequence counter of total flows seen 1 


| 20 | engine type | Type of flow-switching engine 1 
----Source ID--* 


engine id | Slot number of the flow-switching engine 1 


p 


1 22-23 | reserved 1 Unused (zero) bytes 1 


图 2.8 NetFlow v5 的 输出 UDP 包头 格式 


在 包头 之 后 ,可 以 跟 1 一 30 个 详细 的 流 记 录 。 每 条 流 记 录 长 为 48B, 详 细 格式 如 
图 2.9 和 图 2. 10 所 示 。 


| Bytes | Contents 


s 
8 
H 
8 
5 
g 
H 
8 


| 0-3 | srcaddr | Source IP address 


| 4-7 | dstaddr | Destination IP address i 


1 IP address of next hop router 1 


| Interface index (ifindex) of input interface i 


| 20-23 | düctets | Total number of Layer 3 bytes in the packets of the flow | 


| 24-27 | First | SysUptime at start of flow 


| 28-31 | Last 
1 1 1 


SysUptime at the time the last packet of the flow vas — || 
received 1 


1 32-33 | srcport TCP/UDP source port number or equivalent i 


| 34-35 | dstport 


TCP/UDP destination port number or equivalent i 


Unused (zero) bytes 


图 2.9 NetFlow v5 导出 数据 中 每 个 流 的 格式 (0 一 36B) 
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1 37 — | tcp flags | Cumulative OR of TCP flags 


1 42-43 | dst as | Autonomous system number of the destination, either 1 
1 1 | origin or peer 1 


图 2.10 NetFlow v5 导出 数据 中 每 个 流 的 格式 (37 一 47B) 


2.3 流量 管理 概述 


互联 网 从 诞生 至 今 已 经 历 了 将 近 半 个 世纪 的 发 展 , 随 着 互联 网 的 逐步 发 展 , 网 上 用 户 
数量 和 业务 流量 也 在 不 断 增 长 ,网 络 带 宽 正 以 每 年 一 倍 的 速度 增长 ,在 骨干 网 络 中 已 达到 
10/40Gbps 甚至 1Tbps 的 规模 。 除 传统 数据 业务 外 ,网 络 电话 、 网 络 视频 .P2P 文件 共享 
等 新 型 网 络 应 用 使 得 骨干 网 络 中 语音 、 视 频 、 点 到 点 传输 流量 都 呈现 几何 级 增长 趋势 , 占 
据 了 大 量 的 互联 网 带宽 。 然 而 ,网 络 应 用 繁荣 的 同时 ,网 络 管理 的 难度 也 随 之 增加 。 传 统 
的 网 络 设 备 由 于 无 法 识别 这 些 新 生 的 应 用 层 协 议 信 息 , 致 使 应 用 级 的 管控 无 法 跟 上 管理 
的 需要 ,网 络 管理 的 灰色 地 带 不 断 增加 。 同 时 ,网 络 资源 滥用 严重 ,难以 进行 有 效 控制 
管理 ,一 些 关 键 应 用 的 信息 传输 的 低 延 迟 和 低 抖 动 要 求 ,更 是 难以 得 到 有 效 保障 ,网 络 
中 的 关键 应 用 遭受 严重 影响 。 而 且 , 由 于 网 络 的 管理 技术 缺失 ,网 络 应 用 对 带宽 的 需 
求 增 加 ,以 及 DDoS 攻击 等 消耗 网 络 资源 为 目的 的 流量 类 攻击 发 展 迅 猛 ,能 够 迅速 造成 
网 络 拥塞 ,甚至 网 络 设备 次 痪 。 对 流量 缺乏 有 效 的 识别 与 控制 手段 ,使 得 网 络 安全 性 
大 大 降低 。 

对 于 今天 的 网 络 管理 者 而 言 , 如 何 深度 智能 感知 网 络 应 用 ,通过 合适 的 带宽 管理 技术 
来 解决 带宽 增长 与 业务 收益 、 网 络 扩容 与 用 户 体验 之 间 的 不 对 称 关系 ,实现 对 用 户 和 业务 
的 分 级 化 识别 管理 ,以 及 基于 用 户 和 用 户 业 务 流量 的 管理 和 增值 显得 尤为 重要 ,学 术 界 和 
工业 界 也 都 对 此 十 分 关注 。 为 了 有 效 监管 与 分 析 网 络 带 宽 的 使 用 情况 ,防止 视频 直播 、 
P2P 文件 共享 等 应 用 过 度 占用 网 络 带 宽 , 维 护 良 好 的 网 络 环境 , 吸 须 一 种 高 速 的 网 络 流量 
管理 系统 ,针对 出 现 问 题 的 时 间 、 应 用 种 类 做 优先 级 控制 和 优化 。 
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2.3.1 流量 管理 定义 


流量 管理 技术 主要 包括 协议 识别 和 流量 控制 。 流 量 管理 是 通过 对 应 用 层 协 议 的 识 
别 ,来 实现 对 不 同 的 应 用 层 协议 实施 不 同 的 控制 . 限 速 和 QoS 服务 。 如 何 准确 地 识别 应 
用 层 流量 ,并 对 各 种 流量 实现 合理 控制 是 目前 研究 的 难点 。 

1. 协议 识别 

协议 识别 是 进行 流量 控制 的 前 提 , 只 有 在 精确 识别 应 用 层 流量 的 基础 上 ,对 其 进行 控 
制 才 有 实际 意义 。 而 对 于 应 用 层 协 议 的 识别 ,主要 有 基于 端口 .深度 检测 和 基于 行为 的 3 
种 方法 。 

1) 基于 端口 的 应 用 层 协 议 识别 

使 用 端口 来 判断 协议 类 型 是 最 早 使 用 也 是 使 用 最 为 广泛 的 识别 方法 。Internet 端口 
分 配 机 构 (Internet Assigned Numbers Authority,IANA) 负 责 对 IP 地 址 分 配 规 划 以 及 对 
TCP/UDP 公共 服务 的 端口 定义 , 它 规定 了 常用 协议 的 默认 监听 端口 ,比如 HTTP 的 端 
口 是 80,POP3 的 端口 是 110,SMTP 的 端口 是 25。 根 据 端口 对 常用 协议 进行 识别 判定 简 
单 . 快 速 , 这 也 是 端口 判定 法 至 今 还 被 应 用 在 高 速 网 络 处 理 中 的 主要 原因 。 

然而 网 络 高 速 发 展 , 各 种 协议 层出不穷 ,大 量 的 应 用 层 协议 为 了 避免 识别 .逃避 防火 
墙 的 检查 ,不 使 用 固定 的 端口 进行 通信 。 单 纯 依 据 端口 来 判断 协议 已 经 无 法 达到 准确 性 
方面 的 要 求 。 这 不 仅 包括 众多 近年 新 出 现 的 P2P 协议 ,而 且 包 括 了 越 来 越 多 的 传统 协 
议 。 传 统 的 基于 常用 端口 的 应 用 层 协 议 识别 方法 已 经 不 能 适应 于 当前 的 互联 网 网 络 管理 
的 需求 。 

为 了 弥补 根据 端口 识别 协议 无 法 解决 的 问题 ,近年 来 很 多 的 研究 工作 都 致力 于 开发 
新 的 方法 来 识别 应 用 层 协议 。 而 将 基于 端口 识别 的 方法 与 其 他 方法 相 结合 ,也 是 非常 不 
错 的 选择 。 

2) 基于 深度 检测 的 识别 算法 

基于 深度 包 检 测 (Deep Packet Inspection, DPD 的 识别 算法 首先 通过 分 析 各 种 应 用 
层 协 议 ,提取 出 一 些 能 对 具体 协议 进行 表示 的 载荷 部 分 (Payload) AY FEE (Signature) ,组 
成 一 个 特征 库 。 对 网 络 流量 进行 识别 时 ,通过 将 网 包 的 载荷 部 分 与 特征 库 中 的 特征 进行 
匹配 以 识别 出 各 种 应 用 层 协议 。 这 种 识别 算法 不 仅 能 识别 出 使 用 单一 连接 进行 通信 的 协 
议 ,而且 能 够 识别 出 如 PASV FTP` 流 媒体 等 使 用 多 个 连接 、 动 态 端口 进行 通信 的 协议 ， 
是 目前 运用 最 普遍 的 应 用 层 协 议 识 别 方法 。 但 是 ,这 种 方法 还 存在 一 些 不 足 , 比 如 对 于 加 
密 传 输 的 应 用 层 协议 ,将 载荷 与 特征 字符 串 进行 匹配 的 方法 就 几乎 无 法 检测 。 

总 的 来 说 , 这 种 方法 的 准确 性 是 目前 所 有 算法 中 最 高 的 , 误 报 率 一 般 小 于 1026, fR 
日 于 需要 逐 网 包 的 匹配 所 有 协议 的 特征 以 及 额外 的 存储 网 包 的 负载 部 分 ,该 类 算法 的 时 
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间 和 空间 复杂 度 很 高 ,并 且 随 着 待 识别 协议 数量 的 增长 而 迅速 增长 。 所 以 在 不 降低 识别 
准确 度 的 基础 上 ,如 何 提 高 算法 性 能 是 研究 的 主要 内 容 。 

3) 基于 行为 模式 的 识别 算法 

基于 行为 识别 协议 的 算法 利用 协议 规范 的 不 同 所 造成 的 流 测度 的 差异 区 别 各 个 协 
议 。 例 如 , Web 流 一 般 为 短 流 小 网 包 , 而 P2P 流 一 般 为 长 流 大 网 包 。 基 于 行为 模式 的 算 
法 要 求 事先 有 标准 的 训练 集 , 即 要 用 已 按 各 个 协议 分 类 的 报 文集 合 来 训练 识别 器 ,使 其 在 
使 用 的 过 程 中 根据 已 知 的 标准 答案 和 新 计算 的 流 测度 ,按照 某 种 判别 算法 得 出 当前 流 所 
属 的 类 别 和 使 用 的 协议 。 这 种 算法 虽然 在 精度 上 目前 无 法 达到 基于 特征 的 识别 方法 ,但 
是 由 于 它 具 有 强大 的 处 理 加 密 流 量 和 未 知 流量 的 能 力 , 因 此 也 是 协议 识别 方法 的 一 个 重 
要 研究 方向 。 

从 理论 上 说 ,每 种 协议 由 于 其 规范 不 同 ,行为 模式 总 会 有 所 不 同 , 因 此 ,基于 行为 的 算 
法 理论 上 也 可 以 识别 所 有 的 协议 。 但 是 ,当前 所 研究 的 算法 都 只 能 将 流 分 成 几 大 类 ( 例 
如 ,bulk transfer,single and multiple transaction 和 interactive traffic 等 ) ,没有 达到 识别 
协议 的 最 终 目 的 。 此 外 这 一 算法 的 准确 率 一 般 都 不 高 ( 低 于 80 24 ,研究 尚 不 成 熟 。 


2.3.2 流量 控制 


当前 的 网 络 容量 不 能 满足 日 益 丰 富 的 网 络 应 用 的 需要 ,更 多 、 更 合理 的 控制 机 制 对 已 
有 网 络 的 稳定 运行 无 疑 是 至 关 重要 的 。 一 个 完整 的 流量 控制 结构 必然 要 在 恰当 的 层次 和 
粒度 上 对 流量 进行 必要 的 管理 ,其 中 包括 流量 整形 、 队 列 管理 和 网 包 调 度 等 。 

1. 流量 整形 


流量 整形 是 调整 网 包 传输 的 平均 速率 ,使 网 包 按照 传输 模式 规定 的 速率 进行 传输 , 尽 
量 避 免 突 发 性 流量 导致 的 拥塞 问题 。 主 要 方法 是 控制 队列 的 输出 ,以 调整 输入 网 包 的 速 
率 和 平滑 传输 速率 。 产 生 突 发 流量 的 原因 是 因为 网 络 传 输 是 以 网 包 为 单位 的 ,传输 两 端 
一 般 是 产生 突 发 的 网 包 序列 ,而 且 网 络 中 间 设 备 很 难 对 突 发 进行 预测 。 例 如 ,一 个 用 户 接 
入 网 的 平均 带宽 为 X Mbps. X Mbps 就 有 多 种 情况 ,每 秒 传输 X Mb 的 网 包 是 最 为 理想 
的 情况 ;然而 用 户 流量 可 能 在 前 1s 发 送 2X Mb, 然 后 停止 1s。 在 这 种 情况 下 ,用 户 的 平 
均 带 宽 仍然 是 X Mbps, 但 是 突 发 带宽 就 是 2X Mbps。 如 果 多 个 用 户 同时 发 送 突 发 网 包 ， 
虽然 平均 带宽 符合 设置 ,但 是 在 突 发 瞬时 网 络 已 经 变 得 拥塞 ,甚至 造成 网 包 丢 弃 。 

2. 队列 管理 

队列 管理 的 作用 是 在 网 包 到 达 队 列 前 端 时 依据 一 定 的 策略 和 信息 决定 是 否 允许 该 网 
包 进 入 缓冲 队列 ,队列 管理 是 流量 控制 的 重要 手段 之 一 。 列 缓冲 队列 的 设置 提高 了 带宽 
利用 率 和 系统 吞吐 率 , 然 而 同时 也 增 大 了 网 包 排 队 延迟 , 在 队列 缓冲 空间 的 容量 增 大 时 更 
为 严重 。 因 此 ,如 何 设置 合适 的 队列 缓存 容量 ,如 何在 网 络 运行 期 间 合 理 地 控制 队列 长 度 
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的 动态 变化 ,以 平衡 系统 吞吐 量 和 网 包 排队 延 时 之 间 的 矛盾 ,是 队列 管理 的 首要 问题 。 典 
型 的 队列 管理 算法 有 自 适 应 虚拟 队列 (Adaptive Virtual Queuing, AVQ) .成 比例 丢失 率 
控制 算法 (Proportional Loss Ratio,PLR) 和 随机 早期 预测 (Radom Early Detect,RED) 。 

3. 网 包 调度 

基于 多 队列 的 控制 方案 在 业务 隔离 .资源 公平 分 配 等 方面 是 实现 区 分 服务 的 必然 选 
择 。 网 包 调 度 是 指 按照 一 定 的 规则 来 决定 从 哪 一 个 等 待 队 列 中 选择 哪 一 个 网 包 进 行 发 
送 ,使 得 所 有 输入 业务 能 够 按照 预定 的 方式 共享 输出 的 链 路 带宽 。 网 包 调度 规定 了 网 包 
从 每 个 队列 离开 的 瞬时 特性 ,通过 流 隔 离 ,使 得 不 同 的 业务 的 网 包 获 得 不 同等 级 的 服务 。 
根据 工作 原理 和 控制 目标 ,调度 算法 可 以 分 为 以 下 几 类 : 基于 优先 级 .基于 轮 询 、 基 于 
GPS (Generalized Processor Sharing) 模 型 .基于 时 延 和 分 层 链 路 共享 算法 等 。 

如 果 一 个 系统 中 同时 实现 以 上 3 种 算法 ,虽然 可 能 达到 比较 好 的 控制 效果 ,但 是 系统 
处 理 的 开销 大 幅 上 升 ,时 延 增 大 。 所 以 在 实际 应 用 的 系统 中 一 般 会 根据 需要 选择 实现 一 
到 两 种 算法 。 本 文 的 研究 将 集中 于 流量 的 带宽 分 配 和 流量 整形 ,其 余 功 能 也 能 够 类 似 扩 
展 。 具 体 的 网 包 调 度 算法 将 在 2. 3. 3 节 给 出 详细 介绍 。 


2.3.3 高 速 流量 管理 调度 算法 比较 与 分 析 


1. 应 用 背景 

综合 服务 IntServ(Integrated Service) fll DiffServ(Differentiated Service) 是 两 种 不 同 
的 Internet QoS 体系 结构 。 

IntServ 同时 针对 单 播 和 多 播 , 由 接收 方 发 送 资源 预 留 消息 , 沿 着 生成 树 上 溯 到 发 送 
方 ;在 沿途 的 每 一 跳 , 路 由 器 看 到 此 预 留 消息 ,并 保留 必要 的 带宽 ; 当 预 留 消息 抵达 多 播 源 
时 ,由 发 送 方 到 接收 方 已 经 预 留 了 带宽 。 该 体系 结构 主要 用 到 资源 预 留 协议 (Resource 
reSerVation Protocol, RSVP) ,提供 一 种 基于 流 的 细 粒 度 的 服务 。 然 而 当 流 的 数目 非常 
之 多 超出 带宽 可 承载 能 力 的 时 候 ,这 种 做 法 的 扩展 性 非常 差 ; 同 时 路 由 器 内 部 需要 为 每 个 
流 维护 一 份 内 部 状态 ,这 使 得 路 由 器 易 骨 溃 ; 此 外 ,路 由 器 之 间 需 要 进行 复杂 的 消息 交换 。 
鉴于 以 上 三 点 ,基于 RSVP 的 IntServ 很 少 应 用 于 实际 。 

DiffServ 则 是 将 服务 按 服务 质量 (Quality of Service,QoS) 分 类 ,给 每 个 类 别 分 配 一 
定 的 资源 ,每 个 服务 类 别 与 相应 的 转发 规则 相对 应 ,服务 类 别 较 高 的 服务 得 到 的 服务 具有 
较 大 的 带宽 , 较 低 的 延 时 , 较 低 的 拌 动 , 较 小 的 丢 包 率 ;同时 可 能 需要 支付 较 高 的 费用 等 。 

这 里 的 调度 算法 皆 基 于 DiffServ 体系 结构 ,也 就 是 当 网 包 到 达 路 由 器 后 , 按 服务 要 
求 、 服 务 类 别 分 到 不 同 的 队列 ,该 如 何在 队列 之 间 、 队 列 内 部 进行 网 包 传输 的 先后 顺序 的 
决策 ,以 尽 可 能 满足 各 个 服务 类 别 在 QoS 上 的 要 求 ,将 是 网 包 调 度 算 法 所 考虑 的 问题 。 
当然 ,其 中 有 部 分 算法 也 可 用 于 IntServ。 


第 2 章 互联 网 流量 测量 与 带宽 管理 | 25 


至 于 调度 算法 在 系统 中 的 存储 位 置 , 既 可 以 在 路 由 器 的 输入 接口 处 进行 ,也 可 以 在 路 
器 的 输出 接口 处 进行 ,也 可 以 结合 起 来 ,在 输入 输出 接口 处 同时 排队 。 

2. 网 包 调度 综述 

1) 问题 提出 

在 高 速 网 络 中 ,网 包 到 达 路 由 器 等 网 络 中 间 设 备 ,需要 进行 网 包 分 类 、 路 由 查找 、 队 列 
管理 等 动作 ;而 由 于 网 包 大 量 到 达 , 需 要 在 路 由 器 向 链 路 输出 时 决定 网 包 的 输出 顺序 , 因 
而 还 需要 进行 网 包 调度 ,如 图 2. 11 所 示 。 


输入 队列 网 包 处 理 输出 队列 


D a I 路 由 查找 III 网 物 
ALT ft ICM | [ emite EISE 
H E 度 || |H 


"a 会 话 表 维 护 


图 2.11 网 包 调度 在 路 由 器 中 的 位 置 


当 网 包 大 量 到 达 路 由 器 等 网 络 中 间 设 备 时 ,容易 导致 数据 在 网 络 中 突 发 .堆积 ,此 外 
还 可 能 无 法 满足 部 分 实时 数据 的 传输 延迟 限制 ,因此 需要 设计 一 种 策略 , 既 限 制 突 发 流量 
引发 的 拥塞 ,调整 流量 趋 于 平滑 ,又 满足 不 同 用 户 的 数据 传输 策略 。 因 此 想到 将 网 包 按 照 
一 定 的 特征 分 到 不 同 的 队列 中 , 按 队列 特性 和 网 包 的 时 间 特 性 决定 网 包 的 先后 传输 顺 
序 一 一 这 就 是 调度 过 程 。 而 决定 传输 顺序 的 策略 ,就 是 调度 算法 。 

调度 算法 本 质 上 是 要 解决 带宽 资源 争 用 的 问题 ,具体 来 说 有 如 下 几 方 面 的 问题 。 

(1) 公平 的 分 享 带宽 。 按 照 带 宽 提 供 量 合理 满足 不 同 队列 对 带宽 的 需求 ,同时 不 顾 

COD 对 每 个 用 户 提供 最 大 最 小 的 带宽 保证 。 实 际 上 保证 为 某 用 户 的 队列 所 提供 的 服 
务 量 在 单位 时 间 内 不 能 超过 最 大 带宽 ,不 能 小 于 最 小 带宽 。 

(3) 保证 丢 包 率 的 限制 。 在 某 些 情况 下 ,队列 有 一 定 的 容量 ,队长 超过 该 容量 后 ,可 
能 丢弃 某 些 包 ; 分 配给 队列 的 带宽 越 大 ,丢弃 率 可 以 越 小 。 

(4) 保证 延 时 的 限制 。 

(5) 保证 延 时 抖动 的 限制 。 保 证 队列 流量 基本 平滑 ,尽量 不 出 现 某 个 包 延 时 大 、 某 个 
包 延 时 小 的 情况 。 

(6) 保证 要 求 的 调用 控制 .策略 .整形 .丢弃 策略 、 缓 存 分配 和 调度 。 

(7) 不 同 队列 间隔 离 。 某 个 队列 流量 的 突 发 不 会 影响 到 其 他 队列 满足 服务 要 求 。 

2) 衡量 算法 优 劣 的 几 个 指标 

CD 调度 算法 的 时 间 复 杂 度 。 也 就 是 调度 算法 确定 下 一 个 网 包 需 要 花费 的 时 间 。 
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(2) 公平 性 。 公 平 性 有 多 种 定义 ,这 里 以 尽量 满足 用 户 需 求 , 合 理 分 配 系统 资源 为 公 
平 。 指 标 有 B-WFI, T-WFI 等 。 其 中 带宽 最 坏 公 平 指数 B-WFI (Band Worst-case 
Fairness Index) 用 来 表示 队列 在 实际 网 包 系 统 和 相应 理想 流 系 统 上 接收 到 的 服务 量 的 最 
大 差 值 ( 见 公平 调度 算法 类 章节 )。SFICService Fairness Index) 用 来 比较 在 同一 时 段 内 ， 
任意 两 个 流 所 接受 的 服务 量 的 差 值 (具体 解释 见 4. 1 节 )。 

(3) 延 时 界 。 也 就 是 在 最 坏 情况 下 的 延 时 和 延 时 拌 动 需要 一 定 的 范围 ,与 其 他 流 的 
行为 、 流 的 数目 、 其 他 流 的 预 留 资源 无 关 。 

(4) 算法 的 实现 是 否 简单 有 效 。 

3) 定义 调度 算法 

现 有 的 调度 算法 有 一 些 分 类 方式 ,比如 一 种 区 分 方式 是 持续 工作 (Conserving-work) 
和 非 持续 工作 (Non-conserving-work)。 持 续 工 作 就 是 有 任务 时 ,服务 器 不 会 空转 ,这 可 
以 保证 低 的 平均 延 时 ,高 总 吞吐 量 ,但 也 可 以 导致 高 延 时 拌 动 。 非 持续 工作 指 即使 有 网 包 
在 队列 中 等 待 , 也 可 能 先 不 要 调度 ,而 是 需要 先进 行 流量 整形 ,这 可 以 保证 在 最 坏 情况 下 ， 
端 到 端 延 时 更 小 ,产生 更 高 的 网 络 乔 吐 量 ,而 且 还 能 保证 低 的 延 时 抖动 ;但 每 一 跳 都 整形 
可 能 会 导致 额外 的 跳 延 时 。 实 际 上 ,各 种 算法 的 关系 错综复杂 ,无 法 严格 地 按 某 种 机 理 区 
分 它们 。 在 研究 已 有 算法 的 过 程 中 ,发 现 有 些 算法 以 时 延 作为 调度 依据 ,有 些 算 法 以 带宽 
作为 调度 依据 , 另 一 些 则 以 速率 作为 调度 依据 (也 就 是 综合 考虑 了 带宽 因素 和 时 延 因 素 ) 。 
有 些 算法 只 考虑 单个 调度 器 对 业务 流 的 处 理 , 另 一 些 算法 则 考虑 包 分 类 缓存 管理 等 之 前 
之 后 的 因素 ,乃至 整个 网 络 的 排 兵 布 阵 。 

通过 对 这 些 调度 算法 的 研究 ,定义 调度 算法 如 下 : 在 高 速 网 络 中 ,对 于 共享 同一 链 
路 不同 种 类 的 业务 流 ,考虑 其 时 延 、 带 宽 等 QoS 要 求 ,需要 在 尽 可 能 满足 每 条 业务 流 的 
QoS 需求 的 情况 下 给 出 网 包 接受 服务 的 先后 顺序 的 一 种 算法 。 

不 同 的 网 络 环境 、 不 同 的 应 用 程序 对 性 能 的 要 求 不 同 ,因而 对 调度 算法 的 要 求 也 不 
同 ,比如 有 些 网 络 需 要 优先 考虑 时 延 ,有 些 网 络 需 要 优先 考虑 公平 性 ,有 些 网 络 需 要 为 某 
些 特定 流 保证 绝对 的 实时 性 等 。 

4) 调度 算法 思想 

调度 算法 本 质 上 是 将 业务 流 分 类 ,作为 不 同 的 队列 ,再 给 每 类 业务 流 一 个 权重 ,一 个 
以 时 间 为 参数 的 限制 曲线 ,该 曲线 与 权重 有 关 ; 算 法 设计 要 求 队列 间 的 选择 满足 该 队列 的 
曲线 限制 ,队列 内 一 般 采 取 先 进 先 出 的 做 法 。 权 重 有 多 种 形式 ,比如 等 权重 、 优 先 级 、 速 率 
比 和 带宽 限制 ;曲线 也 有 多 种 形式 ,比如 速率 上 下 限 和 带宽 上 下 限 ,因而 调度 算法 有 多 种 
形式 。 

各 种 纷繁 复杂 的 算法 皆 基 于 一 些 基 本 的 调度 思想 ,由 这 些 思想 演变 而 来 。 这 里 罗列 
其 中 几 种 。 这 些 思想 的 实现 本 身 也 可 以 作为 调度 算法 。 

(1) 先进 先 出 (First In First Out,FIFO) 的 调度 思想 。 
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先进 先 出 作为 算法 ,各 种 网 包 不 分 类 ,也 就 是 只 有 一 条 队列 , 按 到 达 顺 序 进 入 该 队列 
中 按 次 序 接受 服务 。 在 这 种 情况 下 ,首先 不 能 保证 很 好 的 公平 性 ,其 次 用 户 间 不 隔离 。 很 
多 高 级 的 调度 算法 将 网 包 按 某 些 方式 分 类 ,每 一 类 一 个 队列 ,队列 间 的 调度 有 许多 可 做 的 
工作 ,而 队列 内 部 通常 采用 先进 先 出 的 做 法 。 

(2) 基于 优先 级 队列 (Priority Queuing,PQ) 的 调度 思想 。 


给 每 个 队列 划分 优先 级 0,1,2,…,n 一 1, 优 先 级 数字 越 小 ,优先 级 越 高 。 从 优先 级 高 
的 队列 开始 调度 ; 当 且 仅 当 优先 级 0,1,… ,i 一 1 的 队列 为 空 时 ,优先 级 为 i 的 队列 才 可 以 
被 服务 。 


优先 级 较 高 (数字 较 小 ) 的 队列 ,能 够 保证 较 小 的 延 时 , 较 大 的 吞吐 量 , 较 小 的 丢 包 率 。 
如 果 优 先 级 高 的 队列 过 载 (需要 传输 的 网 包 过 多 ) ,优先 级 较 低 ( 数 字 较 大 ) 的 队列 容易 被 
饿 死 (很 长 一 段 时 间 内 得 不 到 服务 )。 因 此 这 类 算法 公平 性 很 差 。 

(3) 停 等 (Stop and Go) 的 调度 思想 。 

将 时 间 分 为 时 间 片 是 该 算法 的 关键 。 在 空闲 时 间 片 伊始 , 轮 询 各 个 队列 ,一旦 队列 有 
网 包 , 则 传输 网 包 ,直至 传输 完毕 ;在 下 一 时 间 片 伊始 ,从 下 一 队列 开始 ,再 次 轮 询 队列 。 

QSP 结构 如 图 2. 12 所 示 。 


输入 包 队列 调度 器 
888 m m | 
8688 Ss H H 
888 = EM ow 
图 2.12 QSP 结构 


5) 调度 算法 的 QSP 结构 

本 节 所 述 涉及 包 分 类 队列 的 调度 算法 皆 基 于 一 种 多 队列 一 调度 器 一 管道 QSP 
(Queue-Scheduler-Pipe) 结 构 。 该 结构 分 为 前 端的 队列 ,中间 的 调度 器 ,后 端的 传输 管道 。 
输入 包 按 一 定 的 规则 分 发 到 各 个 队列 中 ,调度 器 按 一 定 的 调度 算法 从 各 队列 中 取出 网 包 
送 入 管道 进行 传输 。 

6) 基本 概念 

为 了 方便 读者 ,这 里 罗列 并 解释 一 些 关 键 术语 ,这 些 术 语 频频 出 现在 各 种 文献 中 。 

CD 包 。 在 这 里 是 网 包 调 度 中 网 包 的 意思 ,也 就 是 网 络 层 的 数据 单元 ,因为 部 分 算法 
中 有 队列 网 包 , 为 了 避免 两 者 混淆 ,统一 称 为 网 包 。 

(2) 服务 量 。 在 网 包 调 度 中 即 链 路 传输 量 。 

(3) 流 、 队 列 、 业 务 流 、queue 几 个 概念 等 价 。 

(4) 传输 链 路 。 反 映 到 上 述 结构 中 , 即 pipe( 管 道 )。 

(5) Lax. MAAK. —ARAE MTU(Maximum Transmission Unit), 
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3. 基于 轮 循 的 算法 类 

各 种 RR(Round-Robin) 调 度 算法 的 核心 是 将 时 间 片 分 给 队列 的 分 配方 式 。 一 旦 某 
个 队列 获得 时 间 片 ,将 发 送 一 定数 目的 网 包 到 输出 链 路 。 

1) 轮 循 调度 RR 

对 到 达 的 包 进 行 分 类 ,分 到 各 个 队列 中 ;在 队列 间 轮 循 调度 ,每 次 调度 当前 队列 的 一 
个 网 包 进行 传输 ,传输 结束 后 至 下 一 队列 ;如 果 当 前 队列 为 空 , 则 直接 询问 下 一 队列 ,以 此 
类 推 。 然 而 基本 轮 询 算法 忽略 了 包 的 长 度 和 时 间 需 求 ,不 是 公平 算法 。 

2) 带 窗口 的 基于 优先 级 的 调度 

该 算法 本 质 上 是 一 种 轮 询 算法 。 为 优先 级 为 i 的 队列 指定 一 个 最 大 服务 包 数 n;( 窗 
口 大 小 ), 对 所 有 队列 按照 优先 级 的 高 低 进行 轮 询 , 每 轮 从 优先 级 最 高 的 队列 开始 ,优先 级 
为 i 的 队列 每 轮 可 以 服务 至 多 ni; 个 网 包 ; 只 及 个 网 包 被 服务 之 后 , 才 会 询问 更 低 优先 
级 的 队列 。 这 样 可 以 保证 具有 低 优 先 级 的 队列 中 的 网 包 不 被 饿 死 , 但 这 样 一 个 轮 询 的 过 
程 会 增加 高 优先 级 队列 的 延 时 。 

特别 地 , 当 n; 比较 小 时 ,该 调度 算法 趋 近 于 RR BE n; 比较 大 时 ,每 一 轮 在 优先 
级 较 高 的 队列 中 服务 比较 久 的 时 间 ,该 调度 算法 趋 近 于 PQ 算法 。 

n 和 延 时 或 丢 包 率 之 间 的 数量 关系 有 待 研究 。 具 体 参阅 El-Gebaly 和 Sabaa 等 人 的 
工作 。 

3) WRR( Weighted Round-Robin) 

给 每 个 队列 赋予 不 同 的 权 值 , 代 表 一 次 完整 循环 队列 被 服务 的 网 包 数 。 同 时 为 每 个 
队列 维护 一 个 计数 器 ,初始 化 为 权 值 。 每 次 轮 循 时 ,计数 器 为 非 零 的 队列 允许 发 送 一 个 网 
包 , 同 时 计数 器 减 一 。 当 所 有 队列 的 计数 器 为 零 时 , 重 置 各 队列 的 计数 器 为 各 自 权 值 。 加 
权 轮 循 算法 考虑 不 同 队列 对 服务 量 的 需求 ,但 未 考虑 包 长 因素 ,也 不 是 公平 算法 。 

4) DRR(Deficit Round-Robin) 

在 WRR 的 基础 上 考虑 包 长 因素 ,以 字 节 为 单位 为 每 个 队列 分 配 一 个 带宽 份额 ,同时 
为 每 个 队列 维护 一 个 计数 器 ,初始 化 为 权 值 。 每 次 轮 循 时 ,如 果 待 发 送 包 的 包 长 小 于 计数 
器 的 值 , 则 发 送 该 包 , 同 时 将 计数 器 的 值 减 去 包 长 值 。 如 果 待 发 送 包 的 包 长 大 于 计数 器 的 
值 , 则 继续 询问 下 一 队列 ,同时 当前 计数 器 的 值 在 下 一 轮 轮 循 至 该 队列 时 ,将 此 剩余 值 与 
权 值 之 和 分 配给 该 队列 作为 计数 器 ( 亦 即 每 轮 轮 询 结束 后 ,为 每 个 队列 重新 分 配 带宽 份 
额 , 并 加 上 原来 的 剩余 值 )。DRR 很 好 地 解决 了 带宽 分 配 的 公平 性 问题 ,而 且 具 有 RR $E 
法 的 共同 优点 : 制定 决策 的 时 间 是 O(1) 的 。 但 在 时 延 需求 方面 ,在 不 考虑 权重 的 情况 
下 ,需要 等 待 其 他 队列 被 服务 一 轮 之 后 , 才 可 接受 下 一 次 的 服务 。 另 一 方面 ,由 于 每 一 轮 
轮 循 都 会 给 每 个 队列 分 配 权 值 大 小 的 带宽 份额 以 累积 计数 器 的 值 , 一 旦 某 队 列 轮空 多 轮 
后 , 突 发 大 量 流量 ,这 些 流量 都 可 能 在 一 个 轮 循 周期 内 传输 ,这 就 造成 流量 突 发 。 许 多 高 
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速 路 由 器 的 调度 算法 (如 Cisco GSR 等 ) 都 是 基于 DRR 原理 。 

另 有 一 种 Aliquem 算法 是 对 DRR 的 改进 ,改进 之 处 在 于 ,每 轮 分 配给 队列 的 份额 按 
比例 缩减 ,这 样 可 以 降低 突 发 性 。 

5) SmRR(Smoothed Round-Robin) 

该 算法 是 DRR 的 改进 ,主要 解决 流量 突 发 的 问题 。 对 DRR 的 改进 在 于 ,每 轮 分 配 
给 队列 的 份额 值 不 是 一 次 增加 很 多 ,而 是 每 次 只 增加 一 个 最 大 包 长 L, ,这 种 情况 下 , 即 
使 有 剩余 份额 的 积累 ,也 不 会 产生 太 大 的 突 发 流 。 

为 了 说 明 SmRR , 先 解释 两 个 概念 一 -WSS 和 WM, 

WSS( Weight Spread Sequences) 递 归 定 义 如 下 : 

WSS, =1 

WSS, = WSS, «72. WSS, 1 

举例 如 下 : 

WSS, =1 

WSS, =1,2,1 

WSS; =1,2,1,3,1,2.1 

WSS, —1,2,1,3,1,2,1,4,1,2,1,3,1,2,1 

WSS, —1,2,1,3,1,2,1,4,1,2,1,3,1,2,1,5,1,2,1,3,1,2,1,4,1,2,1,3,1,2,1 

很 容易 看 出 来 ,理想 情况 下 ,在 WSS, 序列 中 ,j 出 现 的 次 数 是 j 十 1 的 两 倍 。 扫 描 
WSS, 序列 ,扫描 到 j 表示 调度 权 值 含 2"’ 项 的 队列 。 那 么 可 以 看 出 权 值 含 2 一 项 的 队列 
被 调度 的 次 数 是 含 2 一 “2 项 的 队列 被 调度 的 次 数 的 两 倍 。 当 然 , 这 是 一 个 极限 情况 ,或 
者 队列 被 扫描 到 时 ,有 网 包 可 发 送 的 情况 。 

WM( Weight Metrix): 该 算法 给 每 个 队列 分 配 一 个 权 值 , 该 权 值 表 示 成 2 HY HE UK A 
的 形式 ,比如 对 队列 i SPRAY AE wi = inna X2"! Hain X 2"? an X2*.aj—0 
或 1, 如 此 一 来 ,有 网 包 要 发 送 的 队列 1,2,…,N 足以 生成 权 值 矩阵 


Alsi o ia * Qio 

Q2,n-1 42,-2 pid 2,0 
WM = . 

Nai. QNa-2 77 No 


WM 从 左 至 右 每 一 列 依 次 标记 为 1,2,…,n, 按 照 序列 WSS, 指示 为 WM 的 列 , 按 列 
调度 。 

具体 来 说 ,调度 过 程 如 下 : 扫描 一 遍 WSS, 为 一 次 轮 询 , 当 扫描 到 WSS 的 指示 为 j 
时 ,选取 WM 第 j 列 中 所 有 非 零 项 ,对 应 到 WM 的 第 i 行 ,为 队列 i 的 份额 增加 一 个 
L max ,按照 份额 服务 于 队列 i; 当 该 列 所 有 非 零 元 素 对 应 的 队列 都 被 服务 一 遍 后 ,扫描 序列 
WSS, 的 下 一 指示 。 
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WM 矩阵 的 形成 : 由 于 WM 矩阵 中 的 每 一 行 标定 了 一 条 激活 流 ,那么 存在 一 个 添加 
激活 流 和 删除 非 激活 流 的 过 程 。 具 体 来 说 , 当 有 新 的 网 包 到 达 而 且 需 要 分 配 为 新 的 数据 
流 时 ,生成 一 条 激活 流 。 为 这 条 流 计 算 权 值 的 二 进 制 寡 次 和 ,并 添加 作为 WM 新 的 一 行 。 
那么 一 旦 这 条 流 的 权 值 有 不 低 于 2" 的 项 时 ,需要 在 WM 中 添加 列 。 这 时 对 应 WM 矩阵 
中 其 他 激活 流 前 几 列 添 0 。 

SmRR 是 在 DRR 基础 上 对 权 值 做 了 一 定 的 处 理 的 一 种 很 精巧 的 设计 ,形式 上 很 有 
些 杨辉 三 角 的 味道 。 

6) RRR(Recursive Round-Robin) 

RRR 依赖 的 数据 结构 是 一 棵 加 权 二 叉 树 (Weighted Binary Tree. WBT) , 树 的 第 i JZ 
中 的 节点 ,表示 权 值 为 2 一 。 

该 算法 中 有 一 个 建立 树 和 选择 数据 流 进行 传输 服务 的 过 程 。 对 队列 i 分配 的 权 值 为 
w;—ai4, X27 07? Hing X27 07? Hea X29 ai —0 或 1, 然 后 将 各 个 有 网 包 需 要 传 
输 的 流 按照 顺序 插入 到 树 中 ,成 为 树 的 叶 节 点 。 队 列 i 的 权 值 中 ai;,; 项 为 1, 意 味 着 rw 将 
出 现在 第 j 层 。 当 所 有 的 流 都 插入 完毕 , 便 构造 成 为 一 棵 WBT。 调 度 时 ,每 次 从 根 节点 
开始 ,一 次 向 左 子 节点 走 ,一 次 向 右 子 节点 走 下 去 ; 当 走 到 子 节点 时 ,同样 严格 遵循 一 次 向 
左 走 ,一 次 向 右 走 ;直到 遇 到 叶 节 点 ,访问 该 节点 ,传输 其 所 代表 的 数据 流 ,如 图 2. 13 
所 示 。 


Level2 
3 
Level3 


Level 4 


Output of RRR: fh fs fo fa fa fs fo hhh hhh hn 
图 2.13 加 权 二 叉 树 


该 算法 的 关键 之 处 是 严格 地 按 一 次 向 左 走 ,一 次 向 右 走 , 这 样 保证 了 流 在 WBT 中 层 
数字 越 小 ,被 访问 的 次 数 越 多 ;在 理想 状态 下 ,第 i 层 和 第 j 层 的 业务 流 被 访问 的 次 数 之 


2i 
Heder. 
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7) G3 
该 算法 结合 了 SmRR 和 RRR ,借鉴 了 SmRR 的 WSS 序列 ,借鉴 了 RRR 的 WBT, 将 
其 扩展 为 完全 加 权 二 叉 树 (Perfect Weighted Binary Tree,PWBT) ,如 图 2. 14 所 示 。 


Scannedterms 1213 12141 213121 WSS, 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
of SWM a, a, a} Qj ds A, 5 do ds G, a} dj ds a, a; 


Output of G-3.— f, fs fa fi fs fs fo f fs f fof tts f 


By why a sd. hy hs d. o, AL A fe 

o 4 2 6 1 5 3 7. ms, MER 
h Rh h bh fh h fh th 

re — TArray; 


图 2.14 完全 加 权 二 叉 树 PWBT 


具体 做 法 如 下 。 
(1) 按照 权 值 份额 ,生成 一 棵 一 层 的 PWBT RE Tree: ,一 棵 两 层 的 PWBT 树 Treez, 
一 棵 三 层 的 PWBT BE Trees HE n JERY PWBT BE Tree, 。 将 节点 按 所 占 份 


额 从 小 到 大 排序 ,依次 插入 到 这 些 树 中 。 

(2) 按照 WSS 的 指示 访问 各 树 : 对 WSS, ilb zi ,当前 值 为 i, 则 访问 Treeni o 

G) 从 WSS, 所 有 值 为 i 的 序列 来 看 ,对 应 到 Tree,-;, 又 按照 RRR 的 方式 访问 叶 节 
点 ;该 访问 次 序 在 G3 中 有 一 个 序列 TSS,-;。 那 么 可 以 为 每 棵 树 设置 一 个 指针 ,指示 
TSS, ;序列 。 

G3 比 之 SmRR ,访问 序列 更 为 平滑 ,对 同一 流 的 两 次 调度 间 , 相 隔 比 较 均匀 。G3 比 
之 RRR ,不 仅 减 小 了 树 的 规模 ,将 其 分 割 为 若干 小 树 而且 用 TSS,_-,; 的 序列 结构 改进 了 访 
问 方 式 , 因 而 是 0(1) 的 算法 。 

4. 公平 调度 算法 类 GPS 

1) 基本 概念 

GPS 思想 映射 到 实际 算法 中 时 ,有 一 些 专业 术语 ,罗列 如 下 。 
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CD 虚拟 时 间 。 在 GPS 情况 下 ,每 个 队列 中 的 网 包 到 达 后 , 按 分 配给 它 的 带宽 份额 
进行 传输 ,在 此 带宽 份额 下 ,网 包 有 一 个 传输 开始 时 间 c, ,一 个 传输 完成 时 间 ty ;然而 由 于 
实际 的 传输 系统 中 ,网 包 蚌 一 个 一 个 传输 的 ,在 每 个 网 包 传输 时 ,将 占据 整个 管道 的 流量 ， 
无 法 用 连续 的 理想 流体 模型 来 建 模 ,为 了 台 近 GPS 的 情况 ,希望 它 尽 可 能 在 [1, te TL SE 
成 传输 ,因此 提出 了 一 个 逼近 模型 一 -PFQ。 在 理想 流体 模型 下 ,为 了 方便 地 评估 队列 的 
服务 份额 ,以 服务 量 代替 开始 时 间 和 结束 时 间 ;这 就 是 虚拟 时 间 。 

(2) Head packet of a flow。 队 列 头 的 网 包 。 

(3) Backlogged flow。 如 果 流 中 有 还 未 接受 服务 ,但 已 经 有 从 虚拟 时 间 上 来 说 可 以 
接受 服务 的 包 ( 或 称 已 经 启动 的 包 ) ,那么 该 流 被 称 为 是 积压 的 。 

(4) Service guarantees。 实 际 的 调度 系统 和 理想 流体 系统 在 性 能 方面 的 差 值 。 一 般 
评价 指标 有 以 带宽 为 指标 的 B-WFI(Bit Worst-case Fair Index) 和 以 时 延 为 指标 的 T- 
WFI(Time Worst-case Fair Index) 。 此 外 评估 公平 性 还 有 一 个 指标 SFICService Fairness 
Index) , 它 用 来 比较 在 同一 时 段 内 ,任意 两 个 流 所 接受 的 服务 量 的 差 值 。 

2) PFQ 模型 

理想 流体 模型 (Generalized Processor Sharing,GPS) 是 这 样 的 模型 : 每 个 输入 队列 
有 一 个 权 值 ,表示 在 传输 链 路 中 所 占 的 带宽 份额 。 数 据 在 传输 的 过 程 中 ,在 任何 时 刻 上 看 
去 ,传输 链 路 中 按 每 个 需要 传输 数据 的 队列 所 需 份 额 的 比例 传输 数据 : 

à, 
2,0, 

GPS 模型 是 一 个 理想 化 的 流 模 型 , PFQ(Packet Fair Queuing) 算 法 模型 则 是 把 该 模 
型 应 用 于 网 络 系统 的 一 类 近似 算法 ,也 就 是 当 业 务 流 不 能 无 限 分 割 , 而 只 能 以 网 包 为 最 小 
单位 的 情况 下 : 在 网 包 进 入 各 自 队 列 时 ,为 其 计算 在 理想 流 情况 下 系统 在 传输 前 的 服务 
量 和 传输 后 的 服务 量 ,作为 流 的 标记 ,这 里 称 为 虚拟 时 间 蕉 一 一 虚拟 开始 时 间 和 虚拟 完成 
时 间 。 

当 上 一 个 网 包 传 输 完毕 后 ,下 一 个 网 包 的 选择 策略 有 3 种 : 最 小 虚拟 完成 时 间 优 先 
(Smallest virtual Finished time First，SFF)、 最 小 虚拟 开始 时 间 优 先 (Smallest virtual 
Started time First. SSF) 和 最 小 合法 虚拟 完成 时 间 优 先 (Smallest Eligible virtual 
Finished time First, SEFF)。 合 法 是 指 网 包 的 虚拟 开始 时 间 不 大 于 当前 的 系统 虚拟 时 
间 。 前 两 种 策略 对 网 包 的 选择 只 使 用 一 个 时 间 标 签 , 因 而 可 能 会 产生 与 GPS 模型 较 大 的 
偏差 ,影响 系统 的 公平 性 。 

3) WFQ =WF2Q cWF2Q- 2SCFQ 2SFQ 

不 同 的 PFQ 类 算法 对 虚拟 时 间 的 计算 方式 不 同 , 或 者 对 下 一 个 需要 调度 的 网 包 的 选 
择 方式 不 同 , 如 表 2. 1 所 示 。 在 具体 算法 的 选择 策略 中 , WFQ (Weighted Fair 
Queueing) , SCFQ ( Self-Clocked Fair Queueing ) 使 用 SFF, STFQ (Start-Time Fair 


T; = 
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Queueing) 使 用 SSF. WF2Q ( Worst-Case Fair Weighted Fair Queueing), WF2Q 十 和 
QFQ 使 用 SEFF。 而 虚拟 时 间 的 计算 方式 上 ,对 WFQ 和 WF2Q 而 言 , 流 i 的 第 k 个 网 包 
的 虚拟 开始 时 间 S 和 虚拟 结束 时 间 FP 计算 如 下 (其 中 LE 是 该 网 包 的 包 长 ,8; 是 该 流 的 
权 值 ,也 可 以 理解 为 传输 速率 ,V(af) 表 示 网 包 a 到 达 时 的 虚拟 时 间 ): 

SF = max{FF',V(a!)} 


Es 
Fe=Si+ 4 
$i 
R21 算法 比较 
WFQ WF2Q WF2Q+ SCFQ SFQ 


当前 正 接受 服 | 当前 正 接受 服 
虚拟 时 间 | 每 次 有 包 进 | 每 次 有 包 进 | 每 次 有 包 进 入 务 的 网 包 的 虚 | 务 的 网 包 的 虚 


计算 方式 “| 出 时 ,复杂 出 时 ,复杂 时 ,简化 计算 拟 结束 时 间 拟 结束 时 间 


选择 网 包 


SFF SEFF SEFF 
策略 


那么 虚拟 时 间 的 计算 如 下 : 
vio) = 0 


L | E 

VGja +r) = VC)+ 2 

事实 上 ,虚拟 时 间 是 一 个 离散 的 过 程 , 每 当 有 网 包 到 达 或 离开 时 ,会 记 为 事件 j, 并 计 
算 该 时 刻 的 虚拟 时 间 V(t)。 

WF2Q 十 则 计算 如 下 : 

V(t+r) = max(V(t) 十 rz,minieao CS; CD)2) 

SCFQ.SFQ 则 以 当前 正 接受 服务 的 网 包 的 虚拟 结束 时 间作 为 当前 的 虚拟 时 间 。 

也 就 是 说 ,在 t 时 刻 , 在 所 有 队列 都 没有 积压 网 包 的 时 候 , 把 将 来 最 早 启动 的 某 一 个 
虚拟 时 间作 为 该 时 刻 的 虚拟 时 间 ; 而 该 时 刻 如 果 有 积压 网 包 , 那 么 在 下 一 更 新 虚拟 时 间 的 
时 刻 , 得 到 的 虚拟 时 间 为 VCU 十 r。 

WFQ: 给 每 个 包 一 个 GPS 的 结束 时 间 ,每 次 选择 等 待 队列 中 最 小 的 一 个 进行 调度 。 
可 能 导致 极度 不 公平 。 实 现 复杂 。 

WF2Q: 为 了 解决 WFQ 的 不 公平 问题 ,在 GPS 时 间 下 ,选择 系统 中 等 待 的 .已 经 启 
动 的 网 包 中 虚拟 完成 时 间 最 早 的 。WFQ 中 , 则 是 选择 在 系统 中 等 待 的 网 包 中 完成 时 间 
最 早 的 。 

WF2Q 十 : 是 WF2Q 的 一 个 简单 的 实现 ,有 比较 简单 的 虚拟 时 间 的 计算 方式 。 

WFQ 和 WF2Q 都 只 能 在 理论 上 实现 ,WF2Q 十 难以 在 高 速 网 络 中 实现 。 虚 拟 时 间 


t Lt — tja 
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的 计算 和 每 发 送 完 一 个 包 后 需要 对 下 一 次 调度 的 网 包 重 排序 ,所 以 调度 算法 的 时 间 复 杂 
度 较 大 。 

这 是 公平 调度 算法 的 一 种 。 

4) QFQ(Quick Fair Queueing) 

之 前 提 到 的 公平 调度 算法 都 是 理论 算法 ,或 者 无 法 在 高 速 网 络 中 实现 ,QFQ 算法 则 
易于 实现 。 它 不 仅 有 O(1) 的 时 间 复 杂 度 ,而 且 用 简单 的 指令 和 数据 结构 就 足以 实现 , 适 
合 于 硬件 实现 ,在 时 延 和 公平 性 方面 则 秉承 了 公平 调度 算法 的 一 贯 特 征 。 

该 算法 设计 不 算 精 巧 ,结构 比较 庞杂 ,但 作为 WF2Q 十 的 一 种 有 O(1) 时 间 复 杂 度 的 
实现 , 仍 有 值得 借鉴 之 处 ,FreeBSD 系统 更 是 将 QFQ 作为 备 选调 度 算法 之 一 。 


QFQ 算法 的 作者 在 深入 研究 了 WFQ 系列 算法 之 后 ,对 数据 流 考虑 了 两 个 因素 : A 


和 Si。 "e “相同 的 数据 流 分 在 同一 一 组 内 ,调度 时 优先 组 号 较 小 者 ;这 意味 着 ,权重 go 


pen ake. 同一 组 内 的 网 包 在 更 新 虚拟 时 间 时 ,可 以 同 进 退 。 在 组 内 ,将 
业务 流 按 照 虚拟 开始 时 间 映 射 到 若干 桶 内 ,每 个 桶 连接 开始 时 间 相同 的 业务 流 。 

需要 调度 下 一 个 网 包 时 ,从 最 小 组 号 开始 扫描 , 碰 到 的 第 一 个 有 积压 网 包 的 组 ,进入 
该 组 ,从 虚拟 开始 时 间 最 小 的 桶 扫描 起 ,直到 第 一 个 有 积压 网 包 的 桶 ,从 中 取出 第 一 个 流 
的 队 首 网 包 发 送 ,更 新 虚拟 时 间 ,更 新 该 数据 流 的 虚拟 开始 时 间 。 继 续 上 一 过 程 。 

该 算法 的 缺点 也 很 明显 , 它 将 真实 情况 做 了 很 多 模糊 化 .近似 化 处 理 , 所 以 是 一 种 粗 
粒度 的 算法 ,在 某 些 情况 下 会 有 突 发 状况 。 

5. 公平 调度 算法 类 GPS 十 轮 询 类 RR 

1) StRR(Stratified Round-Robin) 

该 算法 的 实质 是 将 队列 按 权 值 网 包 轮 循 : 组 内 采用 DRR 调度 方式 ,组 间 采 用 最 早 完 
成 时 间 优 先 ( 时 间 间 隔 小 者 优先 ) 的 方式 。 


为 每 个 队列 fis fase fa WERE r sre ora RAGAS Yr < R, B 
权 值 wi 一 着 。 


将 队列 按 w: 的 值 分 类 ,队列 i 属于 第 MALS Sw uo WA BM TA BA 


A 


列 的 集合 为 Fa ,满足 P= [5 ar als J: 


先进 行 组 间 调 度 : 将 带宽 分 时 间 片 ,在 实际 调度 的 过 程 中 ,在 有 网 包 等 待 传输 的 情况 
下 ,属于 第 & 类 的 队列 每 2 个 时 间 片 调度 一 次 ; 当 出 现时 间 片 冲突 时 ( 即 多 个 队列 同时 需 
要 下 一 时 间 片 ) ,优先 选择 组 号 较 小 、 调 度 间 隔 较 小 的 队列 进行 服务 。 这 也 就 是 最 早 完成 
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时 间 优 先 的 意思 。 

再 进行 组 内 调度 : 类 似 于 DRR, 以 字 节 为 单位 为 每 个 队列 分 配 一 个 带宽 份额 = 
2w;L y OXE Lu 指 最 大 包 长 ) ,同时 为 每 个 队列 维护 一 个 计数 器 ,初始 化 为 0。 每 次 轮 循 
至 该 队列 时 , 先 将 计数 器 的 值 加 上 c; 的 值 , 如 果 待 发 送 包 的 包 长 小 于 计数 器 的 值 , 则 发 送 
该 包 , 同 时 将 计数 器 的 值 减 去 包 长 值 ;如 果 该 队列 还 有 网 包 要 传输 , 那 将 继续 传输 直到 待 
发 送 包 的 包 长 大 于 计数 器 的 值 ,或 者 直到 没有 网 包 要 传输 。 如 果 待 发 送 包 的 包 长 大 于 计 
数 器 的 值 , 则 从 组 间 调 度 处 重新 开始 。 

StRR 与 DRR 不 同 的 是 ,StRR 比 DRR 更 好 地 保证 了 调度 的 公平 性 。 而 且 与 SmRR 
相 比 , 它 将 最 坏 情 况 延 时 降低 到 一 个 很 小 的 常量 值 。 在 实际 应 用 中 ,可 以 使 用 bitmap 提 
高 该 算法 实际 应 用 中 的 速度 。 

2) GRR(Group Round-Robin) 

顾名思义 ,这 是 一 种 网 包 轮 循 : 组 间 可 采用 各 种 PFQ 算法 或 类 PFQ 算法 ,组 内 采用 
按 比 例 轮 循 。 这 是 对 SRR 的 推广 。 具 体 来 说 ,该 算法 步骤 如 下 。 

(1) 先 为 每 个 队列 赋 一 个 权 值 ( 非 负 整数 ) , 按 权 值 将 队列 分 组 : 权 值 为 g 的 队列 分 
在 第 组 ,o=log: lp 小 换 言 之 ,第 组 包括 权 值 为 2 ,2" 十 1,…,2 一 :一 1 的 队列 。 

(2) 然后 计算 每 个 组 内 的 所 有 队列 权重 之 和 , 记 为 o... Vo. 

(3) 在 实际 调度 的 过 程 中 , 先 根据 cb, 进行 组 间 时 间 片 分 配 , 再 根据 o 进行 组 内 队列 
的 调度 。 

CD 执行 组 间 调 度 的 时 间 片 分 配 时 ,采用 WFQ, WF2Q, HS, SCFQ, SFQ, SRR 等 算 
法 ,以 o, 为 参数 进行 时 间 片 分 配 。 


四 执行 组 内 调度 的 时 间 片 分 配 时 ,算法 考虑 了 一 个 衡量 指标 交易 得 EE 
i 是 所 有 队列 的 队列 编号 , 取 非 负 整 数 1,2,…,n。 不 妨 单独 考查 分 配给 该 组 的 时 间 片 序 
列 。 这 些 时 间 片 按 队列 的 权 值 等 比例 地 分 配给 每 个 队列 。 直 观 地 看 ,对 于 队列 i, 设 定 一 
个 份额 值 Di ,初始 值 为 0。 每 轮 询 一 周 ,份额 值 增加 区 ;队列 ;每 传输 一 个 包 , 将 份额 值 D， 


Wl. 由 于 区 是 不 小 于 1 且 小 于 2 的 数 ,因此 当 D; 的 小 数 部 分 积累 到 一 定量 值 的 时 候 ， 


必 将 大 于 等 于 1, 此 时 可 以 将 该 队列 的 网 包 再 传输 一 次 ,以 达到 按 权 值 分 配 的 目的 。 

在 理想 情况 下 ,该 算法 能 得 到 比较 好 的 份额 上 的 公平 性 和 计算 复杂 度 。 然 而 ,该 算法 
基于 静态 信息 分 配 时 间 片 ,一 种 比较 恶劣 的 情况 是 , 某 个 组 根本 没有 网 包 可 传输 , 却 仍然 
为 其 分 配 时 间 片 ,这 将 造成 带宽 上 的 浪费 。 

3) BSFQ(Bin Sort Fair Queuing) 

该 算法 也 是 一 种 网 包 算法 , 它 为 每 个 待 传输 的 网 包 赋 予 一 个 结束 时 间 ,将 结束 时 间 相 


D: 互联 网 流量 大 数据 工程 


近 的 分 在 一 个 组 (bin) 中 ,每 次 调度 时 ,在 所 有 bin 之 间 选 择 结束 时 间 最 早 的 ,bin 内 采用 
RR 算法 。 


6. 基于 服务 曲线 的 算法 


服务 曲线 是 以 时 间 为 参数 的 服务 描述 函数 曲线 。 服 务 描述 函数 能 把 对 服务 质量 的 要 
求 通过 简单 的 描述 函数 表示 出 来 。 这 样 对 每 一 种 业务 类 赋予 一 条 服务 曲线 ,指定 它 每 时 
刻 应 该 收 到 的 最 小 服务 量 。 

基于 服务 曲线 的 算法 是 一 种 很 好 的 想法 ,对 不 同 的 业务 流 设 定 不 同 的 服务 曲线 ,实际 
服务 量 以 服务 曲线 为 最 低 保证 。 不 同 的 服务 描述 函数 对 QoS 的 侧重 点 不 同 , 而 不 同 的 服 
务 描述 函数 亦 能 够 生成 不 同 的 算法 。 

服务 曲线 类 的 SCED(Service Curve-based Earliest Deadline) 算 法 将 到 达 曲 线 平移 最 
大 延 时 得 到 服务 曲线 ,因此 该 服务 曲线 可 以 保证 业务 的 延 时 特性 。 具 体 做 法 是 在 网 包 到 
达 时 ,计算 最 晚 被 发 送 时 间 ,按照 该 时 间 的 先后 顺序 依次 发 送 各 个 网 包 。 该 算法 能 保证 所 
有 服务 曲线 的 前 提 是 所 有 服务 曲线 之 和 不 大 于 系统 所 能 承受 的 总 的 服务 曲线 。 而 且 该 算 
法 不 能 保证 业务 间 的 公平 性 。 

而 HFSC( Hierarchical Fair Service Curve) 算 法 则 给 不 同时 延 要 求 的 业务 类 分 配 不 
同 的 服务 曲线 : 时 延 要 求 严 格 的 业务 分 配 凸 的 服务 曲线 ,时 延 要 求 宽松 的 业务 分 配 凹 的 
服务 曲线 ,这 样 可 以 优先 小 时 延 业务 接受 服务 或 高 速 服务 。 

事实 上 ,GPS 模型 的 算法 也 是 基于 服务 曲线 的 算法 原理 。 它 的 服务 曲线 是 一 条 过 原 
点 的 线性 服务 曲线 ,保证 了 业务 速率 的 要 求 ,缺点 则 是 将 带宽 和 时 延 的 限制 互相 耦合 在 
一 起 。 

一 种 比较 全 面 的 做 法 是 设计 非 线性 服务 曲线 ,实现 时 延 和 带宽 的 解 耦 ,实现 灵活 的 资 
源 管理 和 较 高 的 资源 利用 率 。 


7. 整体 网 络 流量 调度 


以 上 是 单个 节点 调度 算法 ,下 面 讲 网 络 调度 的 策略 。 

1) 核心 无 状态 算法 

网 络 中 有 一 些 节 点 的 流量 较 大 ,甚至 引起 突 发 ,这 些 节点 在 该 类 算法 中 被 称 为 核心 节 
点 。 与 之 相对 应 的 是 边缘 节点 。 这 种 区 分 类 比 于 中 国 铁路 网 ,徐州 .郑州 等 主干 交汇 点 即 
可 视 为 核心 节点 ;各 铁路 沿线 的 小 站 则 可 视 为 边缘 节点 。 

调度 的 处 理 需要 进行 流 分 类 ,为 每 个 流 维护 一 些 状态 信息 ,为 网 包 打 上 调度 策略 所 需 
的 信息 标签 等 操作 ,其 中 某 些 操作 只 需 处 理 一 次 ,如 果 这 些 操作 在 核心 节点 处 完成 ,势必 
造成 瓶颈 ,影响 网 络 的 整体 性 能 。 那 么 在 该 算法 中 ,刻意 将 这 些 操作 放 在 边缘 节点 处 完 
成 ,生成 信息 标签 ,其 中 一 部 分 信息 在 传输 过 程 中 保持 不 变 , 另 一 部 分 则 在 核心 节点 处 网 
包 转 发 之 前 进行 修改 。 
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该 算法 的 优点 显而易见 , 亦 即 算法 初衷 ,降低 了 算法 复杂 度 ; 缺 点 是 算法 的 有 效 运行 
依赖 于 边缘 节点 和 核心 节点 的 配合 ,需要 修改 网 包头 (附加 信息 标签 ) ,可 能 会 影响 某 些 
协议 。 

常见 算法 有 CSFQ (Core Stateless Fair Queuing), CJVC (Core stateless Jitter 
Virtual Clock) 。 

事实 上 ,网 包 调度 算法 的 目标 既 要 考虑 算法 的 计算 复杂 度 和 空间 存储 复杂 度 ,又 要 尽 
可 能 满足 不 同 队列 的 要 求 。 那 么 在 不 同 的 系统 下 ,不 同 的 算法 可 能 有 不 同 的 效果 。 

2) 结合 缓冲 管理 的 算法 

根据 机 理 的 不 同 , 队 列 管理 是 流量 控制 的 关键 ,而 队列 管理 细 分 为 缓冲 管理 和 网 包 调 
度 , 如 图 2.15 所 示 。 如 前 所 述 ,网 包 调度 能 够 影响 对 业务 流 进行 服务 的 各 种 QoS 指标 ， 
缓冲 管理 亦 如 此 。 综 合 考虑 两 者 的 影响 ,得 到 了 目前 已 经 提出 的 C-DBP-Delay-Loss 和 
JoBS 等 算法 。 事 实 上 ,由 于 网 包 调度 算法 主要 考虑 的 QoS 属性 包括 带宽 利用 率 h E 
量 指标 ,一 旦 综合 考虑 缓冲 管理 ,还 需要 加 上 丢失 率 等 因素 。 

QoS 控制 


输入 队列 交换 核心 输出 队列 


ms, ie) 


图 2.15 输入 输出 排队 路 由 器 中 的 网 包 处 理 流程 


C-DBP-Delay-Loss 算法 希望 通过 综合 考虑 时 延 要 求 和 丢失 率 要 求 ,区 分 各 个 业务 
流 , 给 不 同 QoS 要 求 的 业务 流 提供 不 同 级 别 的 服务 。 在 时 延 控 制 方面 ,采用 (m,k) 模 型 ， 
即 在 给 定 流 的 每 & 个 连续 网 包 中 ,至 少 有 xm 个 网 包 能 满足 其 端 到 端的 时 延 限 制 。 在 丢失 
率 方面 ,采用 了 DBP(Distance Based Priority) 算 法 的 思想 ,同样 在 给 定 流 的 每 & 个 连续 
网 包 中 ,统计 到 达 某 失败 状态 (也 就 是 当 发 送 网 包 数 小 于 丢弃 网 包 数 ) 所 需 发 送 的 网 包 数 
H ,该 数目 越 大 ,优先 级 越 低 ;系统 的 调度 策略 即 基 于 优先 级 的 网 包 调 度 。 

JoBS 算法 主要 是 为 各 个 业务 流 分 配 服务 速率 ,以 保证 时 延 和 丢失 率 。 具 体 流程 如 
T: 当 有 网 包 到 达 时 ,为 所 有 队列 计算 时 延 估计 ,然后 调整 速率 分 配 ,以 保证 所 有 QoS 约 
束 。 但 如 果 无 法 满足 所 有 要 求 ,速率 分 配 将 被 归结 为 多 目标 优化 问题 : 约束 是 关于 时 延 、 
丢失 率 的 QoS 约束 , 链 路 和 缓冲 容量 的 系统 约束 ;目标 函数 既 需 要 保证 丢失 率 最 小 ,又 需 
要 尽 可 能 保持 当前 速率 分 配 不 变 , 后 者 是 为 了 避免 服务 速率 抖动 。 这 一 算法 的 缺点 也 是 
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基于 速率 分 配 算法 的 共同 缺点 一 一 速率 和 时 延 的 约束 是 耦合 在 一 起 的 。 

3) 分 层 链 路 共享 算法 

很 多 调度 算法 都 是 在 流 之 间 进 行 的 ,各 个 流 之 间 是 共同 竞争 的 关系 ,而 该 类 算法 对 链 路 
的 带宽 分 配方 式 分 层 ,为 不 同 层 的 各 个 元 素 分 配 不 同 的 带宽 ,常见 的 算法 有 CBQ(Class- 
Based Queueing) , H-PFQ ( Hierarchical Packet Fair Queueing) 和 HFSC ( Hierarchical 
Fair Service Curve), 

提出 分 层 的 共享 算法 是 因为 链 路 的 共享 存在 多 种 情况 ,比如 一 条 链 路 可 以 被 多 个 公 
司 、 组 织 共 享 ,也 可 以 被 多 种 协议 或 者 多 个 应 用 共享 。 随 着 网 络 规模 的 发 展 ,单一 层次 的 
链 路 共享 方式 已 经 不 能 满足 复杂 的 系统 需求 。 因 此 出 现 了 分 层 的 共享 算法 。 这 类 算法 把 
不 同类 型 的 网 流 划 分 成 不 同 级 别 的 类 ,并 同时 考虑 流 对 实时 性 和 链 路 共享 的 需求 ,按照 不 
同 的 层次 进行 网 包 调度 ,从 而 提供 了 在 分 层 共 享 数 内 进行 不 同等 级 的 共享 链 路 带宽 资源 
的 方法 ,如 图 2. 16 所 示 。 


10% 


30% 


Telnet Telnet 


10% 3% 


2% 5% 


(emo) 


1% = 1% 15% 5% 0% link-sharing allocation 
图 2.16 分 层 共享 算法 


分 层 共享 算法 的 目标 是 ,如 果 某 个 业务 有 数据 到 达 , 系统 应 该 能 够 为 其 提供 预先 分 配 
的 保证 带宽 ;如 果 某 个 类 的 未 用 完 带宽 可 以 根据 一 定 的 规则 被 同 级 别 的 其 他 “兄弟 "共享 。 
为 此 系统 一 般 设计 两 级 调度 器 : 常规 调度 器 和 链 路 共享 调度 器 。 当 系统 没有 出 现 拥塞 
时 ,使 用 常规 调度 器 ,使 各 个 业务 能 够 获得 所 需 的 服务 。 当 系统 出 现 拥塞 时 ,启动 链 路 共 
享 调度 器 ,对 某 些 超出 额定 带宽 的 业务 进行 限制 。 这 类 算法 的 优点 是 在 保持 高 链 路 带宽 
的 情况 下 提供 很 好 的 带宽 、 时 延 和 公平 性 保证 。 

4) 比例 区 分 算法 类 

该 算法 类 基于 DiffServ 架构 ,借鉴 了 GPS 的 思想 ,借鉴 了 PQ 的 思想 ,其 中 部 分 算法 
借鉴 了 基于 时 延 调度 的 思想 。 先 介绍 3 个 概念 : 相对 区 分 服务 .比例 区 分 服务 和 比例 时 
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延 区 分 服务 ,它们 之 间 的 关系 如 图 2. 17 所 示 。 


相对 区 分 服务 


比例 时 延 


图 2.17 区 分 服务 的 概念 关系 


首先 是 相对 区 分 服务 的 设计 。 将 不 同 的 数据 流 组 合成 服务 类 ,服务 类 按照 服务 质量 
进行 排序 ,优先 服务 高 级 别 的 类 。 用 户 可 以 根据 质量 要 求 和 价格 选择 服务 类 。 这 实际 上 
是 DiffServ 的 设计 思想 。 

比例 区 分 服务 模型 则 使 得 任意 两 个 数据 类 在 每 一 跳 获得 的 服务 满足 由 网 络 管 理 者 设 
定 的 比例 。 它 也 是 一 种 相对 区 分 服务 。 

比例 时 延 区 分 (Proportional Delay Differentiation，PDD) 模 型 则 给 出 任意 两 个 数据 
类 的 时 延 比 例 , 以 保证 时 延 要 求 小 的 数据 流 优先 获得 服务 。WTP (Waiting Time 
Priority) .PAD(Proportional Average Delay) .HPD(Hybrid Proportional Delay) 等 算法 
皆 如 此 原理 。 不 同 的 是 ,WTP 算法 考虑 的 时 延 是 队列 队 头 网 包 的 等 待 时 间 ,PAD 算法 考 
虑 的 时 延 是 已 发 送 网 包 的 平均 等 待 时 间 ,HPD 算法 是 WTP 算法 和 PAD 算法 的 结合 ,也 
就 是 对 队列 队 头 网 包 的 等 待 时 间 和 以 发 送 网 包 的 平均 等 待 时 间 进 行 加 权 和 ,优先 考虑 该 
和 按 比例 较 大 的 队列 。 

以 WTP 算法 为 例 , 设 ww(bDO 是 上 时 刻 ,队列 z 队 头 网 包 的 等 待 时 间 ,该 网 包 所 属 数 据 
类 的 比例 系数 是 c ,计算 规格 化 等 待 时 间 D; GO m w; (2) / c; ,每 次 调度 时 ,选取 非 空 队列 中 
DW; (最 大 的 队列 进行 调度 。 

显然 ,WTP 算法 在 负载 较 轻 时 ,容易 偏离 理想 PDD 模型 。PAD 算法 在 数据 流 突 发 
时 ,容易 偏离 。 两 者 的 结合 在 性 能 上 会 好 很 多 。 

8. 结论 及 展望 

本 节 对 已 有 的 网 包 调度 算法 做 了 调研 ,在 深入 分 析 其 原理 和 动机 之 后 ,将 其 分 为 轮 询 
类 、 公 平 调度 类 \ 两 者 结合 类 、 服 务 曲 线 类 考虑 整体 网 络 类 等 大 类 。 但 由 于 互相 之 间 互 为 
借鉴 ,如 部 分 公平 调度 算法 可 以 用 服务 曲线 来 描述 ,分 层 链 路 共享 算法 可 以 在 各 层 间 借鉴 
GPS 的 思想 ,比例 区 分 算法 类 又 可 以 应 用 于 缓冲 管理 .分 层 链 路 共享 等 算法 中 。 又 比如 
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很 多 算法 类 综述 中 都 会 提 及 基于 时 延 的 算法 类 ,那么 这 里 将 部 分 基于 时 延 的 算法 按照 算 
法 本 质 归于 其 中 的 某 些 类 。 由 于 不 同 算法 的 侧重 点 不 同 ,所 保证 的 性 能 不 同 , 在 具体 选择 
时 无 法 一 概 而 论 , 需 要 结合 具体 需求 。 

在 这 里 提 及 的 这 些 大 类 的 方向 上 ,可 以 做 一 些 细微 的 工作 , 比如 为 单 节点 处 的 GPS 
类 调度 算法 建立 不 同 的 服务 曲线 。 此 外 ,对 于 各 种 调度 算法 , 另 一 个 可 做 的 工作 是 对 它们 
的 实现 和 基于 实验 的 性 能 比较 ;以 及 进一步 地 建立 服务 曲线 以 比较 之 。 那 么 由 于 调度 算 
法 的 工作 在 现 有 的 机 制 方向 上 ,已 无 大 的 突破 ,也 许 需 要 考虑 诸如 能 耗 低 碳 、 绿 色 计算 等 
新 的 评价 指标 以 提出 新 的 思路 ,以 及 需要 新 的 思想 .新 的 设施 的 提出 。 这 些 工 作 亚 待 以 后 
的 研究 。 


2.3.4 现 有 流量 管理 系统 


基于 目前 网 络 环境 的 需要 ,业界 也 有 诸多 公司 和 组 织 在 进行 着 这 方面 的 研究 ,他 们 的 
产品 既 有 开源 的 流量 管理 系统 ,也 有 商业 化 的 系统 。 这 些 系统 各 有 优势 ,也 在 一 些 方面 存 
在 着 不 足 ,下 面 就 对 当前 比较 流行 的 几 种 网 络 流量 管理 系统 进行 简单 介绍 。 

1. 应 用 协议 识别 

基于 深度 检测 的 协议 识别 不 仅 检 测 网 包头 部 信息 ,而 且 扫 描 网 包 载荷 (Payload) 以 能 
够 识别 隐藏 的 协议 特征 ,从 而 准确 识别 出 流量 的 协议 。 由 于 正则 表达 式 具 有 更 强 的 表达 
能 力 和 灵活 性 ,目前 相关 的 研究 比较 倾向 于 使 用 正则 表达 式 。 较 为 流行 的 几 种 工具 有 
IPP2P、OpenDPI 和 L7-filter 等 ,而 其 中 L7-filter 的 应 用 最 为 广泛 。 

L7-filter(Layer 7 Packet Classifier) 是 基于 Linux 的 Netfilter 系统 上 实现 的 基于 网 
包 载荷 的 协议 识别 工具 ,其 处 理 流程 如 图 2. 18 所 示 。 


2/3 层 处 理 
网 包 预 处 理 


更 新 
dune HUES 匹配 引擎 (RE) 


图 2.18 L7-filter 处 理 流程 


L7-filter 根据 各 种 协议 REC 标准 ,并 通过 分 析 实 际 流量 ,提取 协议 特征 ,写成 正则 表 
达 式 。 如 QQ 协议 的 正则 表达 式 为 ~. ?. ? \x02. 十 \x03$”。 网 包 中 第 一 个 .第 二 个 或 者 
第 三 个 字符 为 0x02, 最 后 一 个 字符 为 0x03 匹配 这 条 表达 式 。L7-filter 中 每 个 协议 的 特 
征 正则 表 以 . pat 文件 的 格式 存放 ,至 2009 年 5 月 28 日 的 版 本 已 经 支持 113 个 协议 。 随 
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着 一 些 软件 的 更 新 ,L7-filter 的 特征 表达 式 也 要 不 断 地 更 新 ,用 户 也 可 以 根据 自己 的 实际 
环境 ,添加 、 删 除 或 者 更 新 的 正则 表达 式 以 满足 自己 的 需求 。 在 匹配 过 程 中 ,所 有 要 查询 
的 协议 特征 组 成 一 个 单 链表 ,到达 的 网 包 从 链表 头 开 始 遍 历 , 直 到 查询 到 最 终结 果 或 者 查 
询 到 队列 尾部 。 

为 提高 L7-filter 的 准确 率 ,L7-filter 以 “连接 ”为 单位 进行 匹配 。 每 个 连接 在 系统 中 
有 一 个 对 应 的 重组 缓存 (Reassembling Buffer) ,到 达 的 网 包 经 过 预 处 理 进入 重组 缓存 , 然 
后 缓存 触发 与 特征 链表 的 匹配 。 匹 配 引擎 返回 识别 结果 后 ,该 连接 后 续 的 网 包 就 直接 打 
上 了 协议 标记 而 不 必 进 行 匹配 。 如 果 匹 配 引 擎 查找 失败 , 则 当 该 连接 下 一 个 网 包 到 达 后 
会 重新 进行 匹配 , 当 重 组 缓存 中 收 到 的 网 包 数 超过 一 定 阔 值 (默认 为 8, 用 户 可 以 配置 )， 
该 连接 被 标记 为 NO MATCH ,该 连接 后 续 的 网 包 也 不 会 触发 匹配 。 其 匹配 过 程 如 图 2. 19 
所 示 o 

重组 组 存 m 
No Match No Match No Match 

SI -| s2 | = e =| Si ill s -| sn | 


图 2.19 L7-filter 匹配 路 径 


最 初 L7-filter 开发 者 在 内 核 中 实现 程序 ,这 是 因为 他 们 认为 正则 表达 式 的 匹配 在 内 
核 中 更 为 高 效 。 而 实际 上 计算 密集 型 的 程序 并 不 适合 在 内 核 中 实现 ,而 且 在 内 核 中 实现 
的 程序 难以 并 行 化 。L7-filter 的 开发 者 认识 到 这 点 并 于 2006 年 推出 了 基于 NFQueue 的 
用 户 态 的 版 本 。 为 充分 发 挥 多 核 平 台 的 优势 ,可 以 在 用 户 态 程序 上 进行 优化 和 改进 。 用 
户 态 的 L7-filter 是 单 进程 的 ,如 图 2. 20 所 示 o 


内 核 空间 NFQueue 用 户 空间 
re 网 络 接口 上 一 一 =| L7-filter 


到 达 网 包 


图 2.20 单 进程 用 户 态 L7-filter 


2. 基于 Linux 系统 的 流量 管理 

1) Linux TC 

Linux TC 是 Linux 自 带 的 流量 控制 器 ,从 内 核 2. 2 开始 Linux 就 提供 了 这 项 灵活 、 
强大 的 流量 控制 功能 。 其 包括 运行 于 内 核 空间 的 流量 控制 系统 和 运行 于 用 户 空 间 的 应 用 
程序 。 

Linux TC 的 流程 如 图 2. 21 所 示 。 整 个 大 方 框 表示 内 核 空间 ,主要 包括 了 网 包 调度 
机 制 (Queue Discipline. AJIJ ME) „Æ (Class) 、 网 包 过 滤器 (Filter) 和 策略 (Policy)4 个 部 
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分 。 网 包 从 最 左面 进入 设备 ,进入 Ingress 队列 规定 ,并 根据 策略 放行 或 者 丢弃 网 包 。 策 
略 放 行 且 网 包 是 发 往 本 地 进程 , 则 进入 IP 协议 栈 处 理 并 提交 给 用 户 进程 。 如 果 它 需要 转 
发 而 不 是 进入 本 地 进程 ,将 发 往 Egress。Egress 分 类 器 经 过 审查 ,将 网 包 放 入 若干 队列 
规定 中 的 一 个 进行 排队 , 即 人 队 。 网 包 进入 队列 后 ,经 等 待 内 核 处 理 并 通过 某 网 卡 发 送 ， 
即 出 队 。 


用 户 态 程序 


内 核 空间 


Qdisc 1 


Qdisc 2 


1 
转发 


Ingress qdisc 


= Egress% 


QdiscN 


图 2.21 Linux TC 系统 架构 图 


Linux TC 具有 以 下 特点 。 

CD 高 度 的 开放 性 。 该 系统 设计 了 一 个 开放 的 框架 标准 ,根据 这 个 框架 标准 实现 的 
调度 算法 可 以 容易 地 添加 应 用 到 系统 中 。 

(2) 易 用 性 。 该 系统 提供 了 运行 于 用 户 空间 的 桌面 应 用 程序 以 对 内 核 空间 的 流量 管 
理 系统 进行 配置 。 通 过 桌面 应 用 程序 ,用 户 可 以 方便 灵活 地 对 每 个 网 络 应 用 选择 调度 算 
法 和 配置 运行 参数 。 

(3) 成 熟 度 高 。 该 系统 中 实现 了 现 有 的 多 种 分 类 和 调度 算法 。 包括 RED、CBQ、 
SFQ TBF 等 十 几 种 算法 。 每 种 算法 都 提供 了 丰富 的 接口 函数 ,用 于 对 网 包 进行 调度 、 转 
发 ,以 及 自身 的 维护 和 配置 。 

2) Untangle 

Untangle 是 一 款 基于 Debian Linux 的 统一 安全 网 关系 统 , 它 包含 病毒 拦截 .人 侵 拦 
截 、 防 火 墙 ,协议 控 制 等 多 项 功能 。 如 图 2. 22 所 示 ,通过 启动 协议 控制 的 7 层 协议 过 滤 功 
能 ,管理 人 员 可 以 完全 掌控 P2P、 视 频 直 播 、 在 线 游戏 等 网 络 滥用 行为 。 通 过 双向 阻止 受 
控 软件 对 受 保护 网 络 的 访问 , 封 墙 P2P 等 开放 多 个 TCP 端口 的 应 用 ,以 保证 带宽 ;通过 
阻止 防火 墙 规 则 无 法 完全 禁止 在 线 视 频 、 在 线 游戏 等 应 用 ,来 提高 工作 效率 。 另 外 ,还 可 
以 编写 自 定义 的 特征 码 描述 任意 协议 ,协议 控制 模块 通过 使 用 特征 码 , 在 所 有 端口 上 来 界 
定 需要 控制 的 协议 。 有 些 协议 ,如 IM 和 P2P 等 .会 进行 端口 跳 转 ,一 旦 在 默认 端口 被 阻 
断 , 它 们 会 通过 80 或 25 端口 进行 连接 。 而 80 和 25 端口 是 Web 和 E-mail 的 常用 端口 ， 
一 般 不 能 被 禁止 。Untangle 的 协议 控制 模块 则 能 够 识别 这 种 端口 跳 转 行为 ,进而 阻 断 并 
记录 网 络 连接 企图 。 
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图 2.22 Untangle 协议 控制 模块 


3. 基于 FreeBSD 系统 的 流量 管理 


FreeBSD 也 推出 了 类 似 功 能 的 ALTQ (Alternate Queuing)。 以 下 介绍 基于 
FreeBSD 系统 的 开源 流量 管理 系统 m0n0wall 和 pfSense. 

1) mOnOwall 

Mon0wall 是 基于 以 性 能 和 稳定 性 著称 的 FreeBSD 内 核 的 嵌入 式 防 火 墙 系统 , 它 可 
以 提供 VPN.DNS 转发 .动态 DNS 流量 控制 等 多 项 功能 ,并 能 专门 解决 像 ADSL 等 非 对 
称 链 路 固有 的 因 上 行 通道 饱和 造成 TCP 的 ACK 确认 包 拥 塞 所 导致 的 下 行 带宽 利用 不 
足 的 问题 。 另 外 ,MOn0wall 的 一 项 非常 优秀 的 功能 就 是 带宽 管理 Traffic Shaper 功能 ， 
通过 策略 对 带宽 进行 管理 ,保障 关键 服务 的 带宽 ,虽然 功能 设置 不 是 非常 丰富 ,但 是 对 应 
普通 用 户 来 说 还 是 够 用 的 。m0n0wall 项 目 启动 于 2003 年 2 月 ,于 2004 年 2 月 发 布 版 本 
1.0。Mon0wall 提供 界面 相当 友好 的 完全 基于 Web 界面 (PHP) 的 配置 管理 ,局 域 网 内 任 
何 一 台 同 一 网 段 的 计算 机 通过 MOnOwall 默认 IP 地 址 登录 Web 界面 后 均 可 对 系统 进行 
管理 。 图 2.23 展示 了 m0m0wall 管理 系统 的 界面 。 

2) pfSense 

pfSense Jii H rH. BSD perimeter LLC 公司 推出 ,该 项 目 启 动 于 2004 年 ,是 m0n0wall 
的 克隆 项 目 , 它 包含 所 有 商业 防火 墙 和 UTM 的 功能 。pfsense 是 基于 FreeBSD 8. 1- 
RELEASE 的 软 路 由 服务 器 平台 软件 ,于 2006 4E 2 月 发 布 版 本 1. 0, 目 前 为 版 本 2. 1. 
图 2.24 展 示 了 pfSense 管理 系统 的 界面 。 


4. 商用 流量 管理 系统 
北京 派 网 、 宽 广电 信 、 畅 讯 科技 等 多 家 公司 专门 从 事 流量 管理 产品 的 研发 ,而 像 Cisco, 
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图 2.24 pfSense 管理 系统 的 界面 
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Juniper、 华 为 等 企业 也 有 相关 的 流量 管理 设备 。 其 中 Panabit, TMA, QQSG 均 是 国内 比 
较 知名 、 应 用 较为 广泛 的 商用 系统 。 

1) Panabit 

Panabit 系统 是 由 北京 派 网 软件 有 限 公司 出 品 的 网 络 应 用 层 流 量 监控 管理 系统 。 
Panabit 基于 FreeBSD 操作 系统 开发 ,特别 针对 P2P 应 用 的 识别 和 控制 进行 开发 与 优化 。 
其 标准 版 可 以 免费 使 用 ,但 限制 并 发 连接 数 为 256。 其 对 应 用 层 的 协议 识别 采用 深度 包 
检测 的 方式 ,对 P2P 协议 的 识别 有 较 高 的 识别 度 和 准确 度 。 图 2. 25 展示 了 Panabit 对 整 
个 网 络 的 流量 进行 监控 和 分 析 的 情况 。 
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图 2.25 Panabit 整体 系统 流量 展示 


2) TMA 

TMA( Traffic Monitoring & Administrator) 网络 流量 监控 系统 是 北京 宽广 电信 高 
技术 发 展 有 限 公 司 针对 以 互联 网 IP. 技术 为 核心 的 各 级 网 络 实际 运行 过 程 中 出 现 的 流量 
监控 和 管理 问题 ,开发 的 具有 完全 自主 知识 产权 的 新 一 代 网 络 流量 监控 管理 系统 ,由 硬件 
探 针 (TMA 1100)、 光 分 路 合 路 器 (OptiSwap) 和 流量 监控 中 心服 务 器 (TMA Server) 构 
成 。 其 特点 是 综合 了 DPI 和 DFI 业务 识别 算法 ,能 有 效 识别 加 密 业 务 , 且 采用 纯 硬 件 架 
Fg ,提供 了 很 好 的 性 能 支撑 ;支持 多 维 并 行 流 控 策 略 ,为 用 户 提供 了 高 精度 的 灵活 流量 控 
制 能 力 。 图 2. 26 展示 了 TMA 监控 系统 对 业务 流量 进行 监控 和 分 析 的 情况 。 

3) QQSG 

QQSG 网 络 服务 控制 管理 系统 是 畅 讯 科技 公司 自主 研发 的 一 款 网 络 服务 管理 和 保 
障 系 统 。 它 采用 软件 与 硬件 相 结合 ,高速 数据 内 容 检测 数据 流 状 态 监测 LIP! 隧道 和 微 码 
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图 2.26 TMA 监控 系统 


固件 的 方法 ,在 对 网 络 应 用 深度 解析 的 基础 上 ,实现 了 2 一 7 层 的 应 用 识别 分 类 流量 属性 
分 析 、 流 量 策略 管理 ,分 类 统计 报告 以 及 状态 预警 等 多 种 功能 。 图 2. 27 展示 了 QQSG 对 
全 网 业务 流量 进行 分 析 的 情况 。 

5. 小 结 

虽然 当前 有 多 种 流量 管理 系统 ,然而 都 尚 不 完善 。 开 源 的 流量 管理 系统 虽然 有 高 度 
的 开放 性 ,但 是 管理 操控 要 求 高 ,协议 特征 少 , 限 制 了 其 广泛 应 用 。 商 用 的 流量 管理 系统 
虽然 性 能 有 较 大 提高 ,管控 简单 灵活 ,但 价格 昂贵 , 且 仍 难 以 满足 网 络 管理 系统 高 性 能 ,高 
灵活 性 等 的 需求 。 而 且 , 基 于 端口 和 行为 的 两 种 识别 方法 准确 度 较 低 ,不 能 满足 当前 精度 
的 需求 ,而 基于 DPI 的 识别 方法 虽然 精度 较 高 ,但 是 计算 复杂 性 高 ,往往 需要 TCAM 或 
搜索 处 理 器 等 硬件 支持 。 所 以 ,如 何 充 分 利用 现 有 的 多 核 平台 ,设计 一 种 易 用 、 灵 活 且 高 
性 能 的 软件 网 络 管理 系统 具有 和 较 高 的 学 术 和 商业 价值 ,也 将 是 高 速 网 络 流量 管理 系统 今 
后 发 展 的 一 个 方向 。 
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图 2.27 QQSG 全 网 业务 流量 分 析 


2.3.5 协同 式 流量 管理 系统 


通过 分 析 DPI 实现 协议 识别 系统 ,和 弄 清 如 何在 不 降低 识别 准确 度 的 前 提 下 提高 系统 
识别 的 性 能 ,并 结合 可 信 网 络 连接 技术 ,高 速 流量 记录 查询 技术 和 协同 交互 思想 ,提出 一 
种 协同 式 的 高 速 网 络 流量 管理 系统 。 协 同 式 流 量 管理 系统 采用 协同 交互 思想 ,将 网 络 内 
部 多 个 独立 的 流量 管理 系统 连接 起 来 ,对 各 子 网 的 疑似 流量 进行 统一 整合 ,集中 分 析 , 统 
筹 调度 。 最 终 将 分 析 结 果 形 成 管理 策略 , 按 需 下 发 实施 。 以 分 布 式 拒绝 服务 攻击 (DDoS) 
为 例 ,攻击 源 通常 比较 分 散 ,攻击 流量 的 特征 不 明显 ,使 用 单个 的 流量 管理 系统 ,难以 对 攻 
击 流量 进行 有 效 的 识别 。 但 是 ,采用 这 种 协同 式 的 流量 管理 系统 ,各 个 子 系统 可 以 将 无 法 
识别 的 疑似 流量 进行 汇总 , 交 由 分 析 控 制 中 心 分 析 其 共同 特征 ,有 效 提高 识别 效率 。 

1. 设计 思路 

Untangle 系统 是 一 款 开源 的 安全 网 关系 统 , 同 时 它 也 有 着 强大 的 流量 管理 功能 ,其 
协议 控制 模块 还 有 着 具有 高 度 定制 性 的 独特 优势 。 所 以 ,协同 式 流 量 管理 系统 采用 
Untangle 系统 作为 基本 的 管理 部 件 , 按 照 协同 交互 的 思想 ,利用 可 信和 网 络 连接 技术 ,将 多 
个 Untangle 系统 连接 起 来 ,统一 由 一 台 分 析 控 制 中 心 管理 。 如 图 2. 28 所 示 ,整个 协同 系 
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图 2.28 协同 系统 的 4 种 协同 行为 


统 有 4 种 协同 行为 ,分 别 如 下 。 

(D) Untangle 子 系统 启动 后 ,连接 到 分 析 控 制 中 心 并 进行 注册 。 

(2) Untangle 子 系统 和 分 析 控制 中 心 之 间 建 立 可 信和 网 络 连接 。 

(3) Untangle 子 系统 将 未 识别 的 可 疑 流量 上 报 ,分 析 控 制 中 心 汇 总 进行 深度 包 检 测 。 

(4) 分 析 控 制 中 心 将 生成 的 特征 码 及 策略 下 发 ,Untangle 子 系统 将 基于 特征 码 的 识 
别 情况 向 分 析 控 制 中 心 反馈 。 

2. 系统 实现 

为 实现 协同 式 网 络 流量 管理 系统 ,需要 部 署 分 析 控 制 中 心 ,负责 对 Untangle 子 系统 
的 统一 管理 。 同 时 ,对 Untangle 子 系统 中 的 协议 识别 模块 进行 改造 ,使 其 具备 三 项 功能 : 
一 是 ,将 无 法 识别 的 疑似 流量 上 报 给 分 析 控 制 中 心 ; 二 是 ,将 分 析 控 制 中 心 下 发 的 特征 码 
和 策略 应 用 到 协议 识别 模块 中 ;三 是 ,将 识别 结果 向 分 析 控 制 中 心 反馈 。Untangle 子 系 
统 上 报 的 疑似 流量 在 分 析 控 制 中 心 进行 汇总 ,通过 深度 包 检 测 对 汇总 的 疑似 流量 进行 综 
合 分 析 , 生 成 相应 的 协议 特征 库 和 管理 策略 ,下 发 到 各 个 Untangle 子 系统 的 流量 管理 模 
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块 中 。 分 析 控 制 中 心 还 有 另外 一 项 重要 的 工作 就 是 ,将 各 子 系统 反馈 的 特征 码 和 策略 的 
识别 效果 进行 汇总 分 析 , 并 带 入 到 深度 包 检 测 环节 ,作为 辅助 参考 ,加 速 检测 过 程 和 提高 
检测 精度 。 由 图 2. 29 可 以 看 到 分 析 控 制 中 心 和 流量 管理 子 系统 相互 协调 工作 的 一 个 基 
本 流程 。 
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图 2.29 分 布 式 流量 管理 系统 流程 


3. 优势 评估 

将 深度 包 检 测 从 各 子 系统 剥离 ,各 子 系统 只 需 根据 特征 码 进行 简单 的 协议 识别 ,降低 
了 各 子 系统 的 协议 识别 压力 ,提高 了 子 系统 的 识别 性 能 。 单 独 采用 分 析 控 制 中 心 进 行 专 
门 的 深度 包 检测 ,将 各 子 系统 无 法 识别 的 疑似 流量 进行 汇总 ,并 将 各 子 系统 反馈 的 特征 码 
识别 情况 带 入 到 深度 包 检 测 中 ,形成 一 个 良好 的 循环 机 制 ,以 提高 深度 包 检 测 的 准确 度 。 
另外 ,通过 分 析 控 制 中 心 对 各 子 系统 进行 统一 管理 ,使 整个 系统 更 灵活 、 易 用 ,降低 了 网 络 
管理 成 本 。 


本 章 首先 阐述 了 网 络 流量 测量 和 管理 的 基本 概念 及 其 重要 性 ,简单 地 介绍 了 现 有 的 
网 络 测量 技术 、 算 法 和 相关 研究 成 果 , 并 介绍 了 开源 流量 管理 系统 和 商用 流量 管理 系统 的 
特点 及 不 足 。 随 后 ,提出 了 协同 式 流量 管理 的 概念 ,介绍 了 协同 式 流 量 管理 系统 的 设计 思 
路 和 具体 实现 ,并 认真 评估 了 协同 式 流 量 管理 系统 的 优势 。 该 系统 充分 利用 了 可 信 网 络 
连接 技术 ,深度 包 检 测 技术 ,高 速 流量 记录 查询 技术 等 现 有 技术 ,提供 了 一 个 高 效 的 、 实 用 
的 ,协同 式 的 高 速 网 络 流量 管理 方案 。 
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互联 网 流量 档案 化 


随 着 互联 网 应 用 的 普及 和 渗透 ,宽带 移动 无 线 网 络 的 大 规模 商用 ,整个 互联 网 流量 总 
量 一 直 保 持 着 高 速 增长 ,思科 公司 报告 中 预言 ,互联 网 的 流量 数据 在 2011 到 2016 年 之 间 
将 增长 4 倍 , 并 于 2016 年 达到 1.3ZB。 即 使 对 于 一 家 大 型 的 互联 网 公司 ,在 日 常 运营 中 
生成 和 累积 的 用 户 行为 数据 是 相当 庞大 的 ,往往 达到 TB 级 甚至 PB 级 的 数据 。 如 此 庞大 
的 数据 流量 进行 管理 是 一 个 具有 挑战 性 的 问题 。 在 通用 多 核 处 理 器 平台 上 ,为 了 适应 线 
速 获取 流量 数据 ,本 章 对 网 包 处 理 过 程 中 的 相关 基础 知识 和 相应 技术 手段 进行 基本 介绍 。 
其 中 的 核心 关键 技术 是 万 兆 级 数据 包 从 网 卡 到 内 存 的 复制 机 制 和 应 用 层 网 络 协议 的 软件 
并 行 化 方案 。 


3.1 高 速 网 包 获 取 的 关键 技术 


3.1.1 网 包 


随 着 互联 网 技术 的 发 展 ,网 络 安全 问题 日 益 凸 显 , 由 于 其 开放 性 ,使 得 网 络 要 遭受 大 
量 可 知 或 未 知 的 攻击 。 在 这 种 背景 下 出 现 很 多 网 络 安全 防范 技术 ,例如 ,入 侵 检测 系统 、 
特征 码 检测 和 安全 扫描 技术 等 ,但 是 很 多 攻击 是 无 法 进行 及 时 检测 和 预防 的 ,需要 通过 对 
网 络 网 包 的 捕获 来 实现 对 数据 信息 的 收集 ,便于 以 后 的 分 析 和 使 用 。 

网 络 之 间 在 传递 信息 时 ,单个 信息 被 划分 为 多 个 数据 块 ,并 以 其 作为 传输 单位 进行 发 
送 ,每 个 小 块 可 能 会 沿 着 不 同 的 路 径 在 一 个 或 多 个 网 络 中 传输 ,并 在 目的 地 实施 重组 ,这 
些小 块 就 是 “网 包 ”。TCP/IP 协议 簇 中 将 这 些 网 包 根据 其 包含 信息 不 同 被 分 为 网 络 节点 
端口 网 包 、IP 网 包 、 传 输 层 网 包 和 应 用 层 网 包 。 


3.1.2 Linux-NAPI 
每 当 接收 到 一 个 链 路 层 以 太 网 帧 时 ,设备 驱动 都 会 为 了 及 时 处 理 到 来 的 网 包 而 产生 
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一 个 中 断 事件 ,可 是 在 高 流量 负载 的 情况 下 ,CPU 会 花费 大 量 的 时 间 在 中 断 处 理 上 ,从 而 
造成 CPU 资源 的 浪费 。 而 NAPI 将 中 断 和 轮 询 相 结合 ,取代 以 往 的 中 断 处 理 模 型 。 由 于 
中 断 处 理 变 少 ,CPU 的 负载 被 大 大 降低 ,并 且 通 过 轮 询 的 方式 使 得 各 设备 之 间 的 处 理 变 
得 更 加 公平 。 

当 某 个 设备 刚 接收 到 新 帧 时 ,依旧 使 用 中 断 通 知 系统 ,并 将 该 设备 注册 到 设备 轮 询 队 
列 中 ,关闭 对 该 设备 的 中 断 响应 。 轮 询 队列 中 注册 的 网 络 设备 进行 轮 询 ,从 中 读 取 网 包 。 
采用 配额 的 方法 保证 对 各 个 网 络 设备 的 公平 调度 。 如 果 配 额 不 足以 处 理 缓冲 区 的 数据 ， 
则 将 该 设备 移 至 轮 询 队列 的 尾 端 ,如 果 配 额 足够 处 理 缓冲 区 的 数据 , 则 将 该 设备 从 轮 询 队 
列 中 注销 ,同时 打开 该 设备 的 中 断 响应 ,处 理 过 程 如 图 3. 1 所 示 。 


数据 包 
EE =: 

E 活 钦 中 电 
et 

i UTI] 
中 断 处 理 

= ce Pires ee 
i 
aa 
注销 该 设备 | 对 该 设备 开 中 上 


图 3.1 NAPI 处 理 过 程 


虽然 NAPI 能 够 减少 CPU 的 资源 浪费 ,但 是 只 有 很 少 的 设备 使 用 NAPI, 因 为 它 存 
在 一 些 比 较 严重 的 缺陷 ,例如 ,系统 不 能 及 时 地 处 理 每 次 接收 的 网 包 , 而 且 随 着 传输 速度 
增加 ,累计 的 网 包 将 会 耗费 大 量 的 内 存 等 ,所 以 NAPI 只 适应 处 理 高 速率 短 数据 包 的 
情况 。 


3.1.3 libpcap 


目前 有 两 种 方法 从 网 络 中 捕获 网 包 , 一 种 是 利用 专用 的 硬件 ,这 种 方法 虽然 性 能 较 
好 ,但 是 昂贵 的 价格 和 较 差 的 扩展 性 让 使 用 者 望而却步 ; 另 一 种 是 利用 软件 来 实施 数据 流 
量 的 捕获 ,虽然 较 之 专用 硬件 性 能 较 弱 ,但 其 低廉 的 成 本 和 强 扩展 性 得 到 了 人 们 的 广泛 青 
睐 。 下 面 将 介绍 一 个 包 捕 获 和 解析 的 开源 库 一 一 libpcap。 

libpcap 中 是 一 个 平台 独立 的 API 接口 函数 库 , 能 够 独立 访问 链 路 层 , 并 读 取 数 据 , 可 
用 于 user-level 的 网 包 捕获 工作 。libpcap 是 一 个 高 层 的 编程 接口 ,使 得 程序 的 编写 和 移 
植 工作 变 得 方便 简单 。 很 多 网 络 安全 产品 都 以 它 为 基础 ,在 数据 链 路 层 上 实现 网 络 数据 
的 捕获 和 分 析 。libpcap 使 用 了 BPF 过 滤 机 制 ,可 以 过 滤 掉 不 需要 的 网 包 , 而 只 捕获 用 户 
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感 兴趣 的 网 包 。libpcap 也 可 以 将 网 络 上 捕获 的 网 包 存 储 到 特定 的 文件 格式 中 ,并 能 随时 
从 该 文件 中 读 取 网 包 的 信息 。 

libpcap 库 提供 的 主要 的 功能 函数 如 下 。 

(D pcap_lookupdev() : 扫描 有 效 网 络 设备 端口 ,返回 供 pcap_open_live() 调 用 的 设 
备 名 指针 。 

(2) pcap_lookupnet() : 获得 指定 设备 的 网 络 地 址 及 网 络 


Pcap_lookupdev() 


掩 码 o Pcap lookupnet() 
(3) pcap open liveO ; 打开 指定 网 络 设备 的 接口 用 于 捕 1 
KM. Pcap open live() 
(A) peap. compileO ; 过 滤 字 符 品 编译 到 过 滤 程 序 中 , 例 ! 


Pcap compile() 


如 上 述 的 BPF 过 滤 规 则 。 
(5) pcap_setfilter(): 设置 网 络 过 滤器 。 


Pcap_setfilter() 


(6) pcap dispatchO ; 捕获 网 包 进 行 中 ,后 调用 recvfrom() i 

把 网 卡 捕获 的 网 包 存 储 到 用 户 指定 的 空间 。 Peap_dispatch() 
(7) peap loopO : 用 于 循环 捕获 网 包 。 i 
(8) peap. closeO + 网 包 捕获 结束 ,释放 资源 。 — 
libpcap 捕获 函数 库 的 工作 过 程 如 图 3. 2 所 示 。 图 3.2 libpcap 捕获 函数 
packet reader thread 从 一 个 网 络 接口 那里 捕获 包 ,并 根据 库 的 工作 流程 


过 滤 规 则 的 设置 丢弃 一 些 包 。Buffer 中 含有 预先 填 好 的 pcap 

file 头 部 ,如 图 3. 3 所 示 ,捕获 的 包 和 相应 的 包头 部 一 起 复制 到 buffer 中 ,如 果 一 个 buffer 
填 满 了 ,就 填写 下 一 个 。packet reader 把 包 写 在 一 个 能 立即 转 储 到 磁盘 上 的 格式 。 写 
buffer 到 disk 上 是 使 用 第 二 个 线程 ,以 保证 快速 转 储 。 


pcap File Header 


| Packet Payload 


Packet Payload 


Packet Payload (mj Packet Header 


3.3 pcap 文件 格式 


Packet Payload 


3.1.4 PF RING 


利用 libpcap 捕获 流量 时 ,CPU 将 花费 大 量 的 时 间 将 网 卡 上 获得 的 网 包 经 过 内 核 函 
数 处 理发 送 到 用 户 空间 ,整个 过 程 是 从 网 卡 到 内 核 , 再 到 用 户 空间 ,大 大 降低 了 CPU 的 
处 理 效率 。 
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Luca Deri 等 四 提出 了 PF RING 的 技术 ,PF_RING 将 网 卡 接收 的 网 包 存 储 在 一 个 
环 状 的 缓存 中 ,这 个 环 状 缓存 有 两 个 接口 ,一 个 可 供 网 卡 向 其 中 写 入 网 包 , 另 一 个 则 是 供 
应 用 层 提供 读 取 网 包 的 接口 , 读 取 网 包 的 接口 可 以 通过 mmap 实现 ,mmap() 可 以 建立 核 
心态 内 存 与 用 户 内 存 空间 的 映射 ,函数 最 后 返回 值 是 用 户 态 内 存 的 首 地 址 PA。 这样 ,可 
以 通过 调用 recvfrom() 将 捕获 的 网 包 直 接 从 网 卡 上 传送 到 pA 为 首 地 址 的 用 户 态 内 存 ， 
减少 数据 的 复制 及 其 他 处 理 操作 ,减少 CPU 的 处 理 时 间 , 某 种 程度 上 ,提高 了 网 包 捕 获 
的 效率 。 

PF RING 结构 如 图 3. 4 所 示 。 


应 用 程序 1 EE 应 用 程序 n 
读 操 作 | 读 操作 。 ™map 
Ringn 
写 操作 写 操作 


DMA 


网 卡 


图 3.4 PF RING 结构 


3.1.5 Netmap 


R. Lizzo 等 外 提出 了 Netmap 框架 ,如 图 3. 5 所 示 。Netmap 是 高 性 能 的 应 用 层 收发 
包 框 架 , 主 要 解决 收发 包 过 程 中 产生 巨大 开销 的 3 个 方面 的 问题 ,分 别 是 每 个 包 的 动态 内 
存 分 配 的 开销 、 系 统 调用 的 开销 和 内 存 副 本 的 开销 。 

Netmap 主要 是 通过 批 处 理 的 方式 减少 系统 调 Application 
用 的 次 数 ,通过 内 核 和 用 户 态 共享 缓冲 区 , 即 类 似 
3.1.4 节 介绍 的 PF-RING 技术 ,以 避免 内 核 态 和 用 ain 
户 态 的 两 次 复制 ,并 通过 预 分 配 固定 大 小 的 buff 来 I rings 


保存 网 包 代替 原本 的 动态 分 配 来 解决 的 。 L |oN m | 


netmap API 


通过 实验 数据 验证 Netmap 的 收发 包 框架 性 能 stack 
测试 比 一 般 标准 的 APIs 至 少 快 一 个 数量 级 外 ,并 且 NIC rings 
提供 的 框架 是 和 现 有 的 OS 系统 紧密 相连 的 ,不 需要 [ M okada "n 
特殊 硬件 的 支持 ,使 用 简单 ,易于 维持 ,重要 的 是 
Netmap 并 不 是 以 条 性 安全 为 代价 提升 性 能 ， ”图 3.5 Netmap 框架 示意 图 


M 
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Netmap 可 以 确保 内 核 永 远 不 崩溃 。 
3.1.6 Scap 


很 多 网 络 监测 应 用 需要 分 析 网 络 层 之 上 面向 连接 的 流量 ,以 及 在 TCP 分 段 基础 上 实 
现 的 弹性 规避 尝试 的 流量 。 但 是 , 现 有 的 网 络 流量 采集 架构 , 仅 提供 对 原始 网 包 的 抓 取 ， 
需要 安全 应 用 的 开发 人 员 后 续 复 杂 的 操作 ,例如 ,对 网 流 的 追踪 和 TCP 流 的 重组 。 这 种 
差距 导致 应 用 程序 的 复杂 性 增加 , 较 长 的 开发 时 间 , 以 及 最 重要 的 是 ,由 于 在 网 包 捕 获 的 
子 系统 和 流 处 理 的 模块 中 产生 了 过 多 的 数据 备份 ,导致 处 理性 能 的 降低 。 

网 流 捕获 库 (Scap) 基 于 一 个 内 核 模 块 ,直接 处 理 流 跟 踪 和 TCP 流 重 组 ,Scap 交付 给 
用 户 层 应 用 的 是 流 级 (Flow Level) 统 计 , 最 大 限度 地 减少 数据 移动 操作 ,丢弃 在 早期 阶段 
不 感 兴趣 的 需要 重组 的 流量 。Scap 本 身 支持 在 多 核 架构 上 并 行 处 理 , 采 用 了 网 卡 的 最 新 
功能 。 

Scap 架构 如 图 3.6 所 示 。 


Scap API calls 


Application 
worker worker  Scapstub ^ worker worker 
thread 1 thread 2 thread 3 thread 4 
P 


event queues 


Scap Scap Scap Scap 
kemel module kemel module kemel module kemel module 
[=] L =] m 
packets [E] = 国 国 
= B uc. € = 
M IP Gp R 4 A 
RX queue | RX queue 2 RX queue 3 RX queue 4 
LI NIC L 


图 3.6 Scap 架构 示意 图 


其 中 使 用 的 关键 技术 概括 如 下 。 

CD 在 内 核 里 增加 可 在 10ms 内 增删 的 Flow Director filters(FDIR), 根 据 网 包 的 信 
息 (目标 IP, 源 端口 .目标 端口 和 协议 名 称 等 ) 对 流 里 面 的 网 包 进 行 分 队 , 对 无 用 的 分 队 进 
行 早期 丢弃 。 

(2) 引入 Prioritized Packet Loss(PPL) 技 术 , 预 先 对 不 同 的 流 进行 优先 级 标记 ,并 针 
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对 不 同 优先 级 的 流 设置 不 同 的 内 存 阔 值 , 当 内 存 超出 某 个 优先 级 的 阔 值 时 丢弃 不 高 于 该 
优先 级 的 流 ,这 样 就 代替 了 原 有 随机 丢弃 的 方式 ,避免 了 重要 信息 的 遗漏 。 

(3) 对 不 同 的 流 进 行 不 同 的 重组 方式 。 

(4) 对 于 同一 个 流 的 操作 在 同一 个 核 处 理 ( 通 过 建立 kernel 和 worker thread) ,并 且 
针对 多 核 情况 ,利用 动态 规划 来 平均 分 配 每 个 核 的 工作 量 。 

(5) 对 每 个 流 设置 一 个 截 短 大 小 (cutoff size) ,只 保留 截 短 大 小 (cutoff size) 以 内 的 网 
包 ( 以 及 流 的 头 和 尾 ) , 剩 下 的 丢弃 。 

(6) 为 了 平衡 多 网 卡 队列 和 核 上 的 网 络 流量 负载 ,Scap 使 用 静态 的 hash-based 方法 
(例如 RSSCReceive Side Scaling) 和 动态 负载 平衡 方法 。 

Scap 架构 由 于 事先 进行 合理 的 预 处 理 , 导 致 丢 包 率 有 明显 的 改善 ,而 且 在 网 络 拥堵 
的 情况 下 能 够 优先 照顾 用 户 需 要 的 包 。 

上 一 小 节 介绍 的 netmap 也 是 对 包 捕 获 的 改进 ,为 此 , 表 3. 1 是 将 Scap 和 Netmap 的 
关键 技术 进行 了 简单 对 比 。 


表 3.1 Scap 和 Netmap 的 比较 


使 用 技术 Scap Netmap 
处 理 粒 度 Stream Packet 
Packet copy Subzero Zero 

xl E FF I 基于 流 的 优先 级 随意 丢弃 


3.2 网 包 位 图 索引 压缩 算法 


位 图 索引 数据 库 


传统 的 关系 型 数据 库 是 面向 更 改 的 ,存储 在 数据 库 中 的 数据 需要 经 常 改动 。 而 位 图 
索引 数据 库 专 门 为 科学 数据 设计 ,这 些 数据 通常 是 由 科学 仪器 或 是 科学 仿真 产生 的 ,特点 
是 数据 量 极其 大 ,而 且 不 再 更 改 。 位 图 索引 数据 库 解 决 了 如 何在 海量 的 科学 数据 中 快速 
地 找 出 那些 少量 被 需要 的 数据 的 问题 ,而 传统 关系 型 数据 库 并 不 适合 这 项 任务 。 

位 图 索引 数据 库 中 用 到 的 技术 主要 是 位 图 索引 、 位 图 压缩 和 归 类 。 在 位 图 索引 数据 
库 中 ,数据 是 按 列 存储 的 ,一 个 列 的 数据 存储 在 一 起 ,并 做 位 图 索引 。 一 个 简单 的 位 图 索 
引 的 例子 如 表 3.2 所 示 。 其 中 RowID 表示 对 应 值 在 表 中 第 几 行 ,生成 的 索引 是 一 个 矩 
阵 , 矩 阵 中 每 一 行 只 有 一 个 1 ,其 余 都 是 0, 标 1 的 位 置 对 应 于 该 行 数据 在 这 一 列 上 的 取 
值 。 这 样 生成 的 位 图 索引 有 一 个 比较 大 的 缺点 ,索引 的 列 数 随 着 取 值 的 多 样 性 而 线性 增 
长 。 为 了 控制 索引 的 大 小 和 查询 时 间 需要 对 索引 压缩 和 归 类 。 压 缩 是 减 小 索引 中 大 量 


3.2.1 
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0 带 来 的 空间 消耗 , 归 类 是 对 位 图 索引 的 一 些 列 的 合并 。 比 如 值 1. 01 和 1. 02 可 以 归 类 
成 1。 通 过 归 类 可 以 减少 位 图 索引 的 列 数 , 增 加 查询 和 储存 的 效率 。 


表 3.2 位 图 索引 示例 


Bitmap 索引 
RowID 列 Number 
一 1 一 2 一 3 一 4 
1 1 1 0 0 0 
2 2 0 1 0 0 
3 2 0 1 0 0 
4 3 0 0 1 0 
5 4 0 0 0 1 
6 1 1 0 0 0 


我 们 将 主要 介绍 3 种 位 图 索引 压缩 算法 : WAH" ,PLWAHU? 和 COMPAXP?, F 
中 PLWAH 和 COMPAX 都 有 改进 版 , PLWAH 的 改进 版 为 PLWAH with adaptive 
counter, 原 文 没有 明确 写 出 PLWAH 本 身 是 否 带 adaptive counter, 因 此 此 处 当做 改进 
版 ,而 COMPAX 的 改进 版 是 COMPAX2( 双 边 ) 和 COMPAX 十 oLSH( 重 排序 )。 


3.2.2 WAH 索引 压缩 算法 
WAH 索引 压缩 算法 示例 如 图 3.7 所 示 。 


128b | 1*1,2040,341,79*0,25*1 
31-b groups 1,20*0,3*1,7*0 620 10*0,21*1 4«] 
literal(hex) 40000380 00000000 00000000 001FFFFF 0000000F 
WAH(hex) 40000380 80000002 001FFFFF 0000000F 


图 3.7 WAH 索引 压缩 算法 示例 


WAH 算法 是 FastBit 位 索引 数据 库 的 默认 算法 ,将 位 序列 分 成 以 31b( 对 于 WAH64 
就 是 63b) 为 单位 的 group。 这 样 ,group 有 两 种 类 型 。 

CD Literal, 即 这 31b 中 有 0 有 1. 

(2) Fill, BX 31b 全 为 0 或 者 全 为 1 。 

在 WAH 算法 中 ,最 终 形成 的 word 是 32b, 其 中 最 高 位 为 类 型 的 标志 位 。Literal 类 
型 的 Group: 类 型 标志 位 为 0, 余 下 的 31b 即 为 原来 的 literal group; Fill 类 型 的 Group: 分 
为 1-Fill 和 0-Fill。 此 时 32b 中 类 型 标志 位 为 1, 第 二 位 作为 Fill 类 型 的 标志 (0-Fill 即 为 
0,1-Fill 即 为 1) ,余下 为 30b 作为 counter, 表 示 连 续 出 现 多 少 个 0-Fill( 或 者 1-FilD 的 
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group. 
3.2.3 PLWAH 算法 


PLWAH 算法 和 WLAH 类 似 ,同样 是 将 原始 码 流 分 成 以 31b 为 单位 的 group. 
Group 也 和 3. 2. 2 节 介绍 的 相同 ,一样 分 成 Literal 和 Fill 两 种 类 型 ,但 是 压缩 方式 有 变 
化 ,具体 如 下 所 示 。 

第 一 步 : 依照 WAH 方法 对 于 Fill-group 和 Literal-Group 添加 标志 位 与 编码 ,形成 
一 组 以 32b word 为 单位 的 编码 (标志 位 为 0 称 为 literal-word, 标 志 位 为 1 的 称 为 fill- 
word, 下 同 )。 此 处 的 区 别 是 对 于 fill-word 只 有 低 25b 作为 counter(WAH 方法 是 低 30b 
都 是 counter,PLWAH 要 留 出 中 间 的 5b 作为 position list, 下 面 会 用 到 ) 。 

第 二 步 : 检查 每 个 fill-word 后 的 word。 如 果 下 一 个 word 是 literal-word 且 是 
nearly identical(nearly identical 定义 是 literal-word 和 上 一 个 fill-word 的 差异 小 于 等 于 s 
Diss 此 处 暂时 为 1, 后 面 会 进一步 讨论 ), 则 在 fill-word 的 position list 上 填 入 下 一 个 
word( 此 时 为 literal-word) 的 差异 位 位 置 (此 处 是 31b, 因 此 差异 位 标号 为 1 一 31, 留 出 5b 
目的 在 此 ) ,同时 删 去 下 一 个 word( 因 为 信息 已 经 保存 在 此 fill-word 中 ,没有 必要 继续 留 
着 ) , 若 fill-word 后 的 word 是 如 下 3 种 情况 。 

(1) 异类 型 的 fill-word。 

(2) 非 nearly-identical 的 literal-word。 

G) 同类 型 的 fill-word( 这 种 情况 产生 的 原因 是 连续 的 fill-group 超出 了 1 个 fill- 
word 的 counter 的 计数 范围 ), 则 position list RÆ., 

进行 扩展 讨论 : 

对 于 32 位 PLWAH, 由 于 nearly identical 的 定义 中 的 s 不 为 1, 则 在 第 一 步 ( 即 利用 
WAH 原理 编码 ) 时 需要 留 出 5Xs 位 position list, 余 下 的 32—2— 5 s 位 为 counter。 在 
第 二 步 时 ,向 fill-word 中 的 position list 添加 差异 位 时 须 按 序 添 加 差异 位 位 置 (5b 标识 一 
个 差异 位 ,5Xs 位 标识 至 多 * 个 差异 位 ), 当 一 0 时 PLWAH HER WAH, 

对 于 64 位 PLWAH . position list 以 6 为 单位 , 即 留 出 6Xs 位 为 position list, 余 下 的 
64 一 2 一 6Xs 位 为 counter, 

PLWAH 十 adaptive counter( 以 PLWAH32.s=1 Whi): 

对 PLWAH 进行 了 小 幅 改 进 , 即 考虑 连续 出 现 极 多 的 0 或 者 1 以 至 于 1 个 word 的 
counter 无 法 完全 容纳 。 此 处 选用 的 方法 为 使 用 两 个 连续 的 同类 型 fill-word, 把 两 个 
counter 部 分 视 为 一 个 大 的 counter, 第 一 个 fill-word 记录 LSB25 位 ,第 二 个 fill-word id 
录 MSB25 位 (相当 于 50b 的 大 counter) ,同时 第 一 个 fill-word 的 position list 为 空 ,第 二 
个 fill-word 的 position list 照常 进行 计算 ,如 图 3. 8 所 示 。 这 样 的 好 处 是 无 须 扩 展 word 
位 数 即 可 完成 对 更 多 连续 码 流 的 编码 任务 .节约 index 空间 。 
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Empty 
Position List 25 LSB of counter 


Word 1 


o 


00000 01000000000000000000000090] 


Word2 | 1}0}00 10 0 0000000010000000000000000] 
25 MSB of counter 
图 3.8 PLWAH 改进 举例 


3.2.4 COMPAX 算法 


COMPAX 压缩 算法 示例 如 图 3. 9 所 示 。 
5*31b 3lb 3s3l b 


一 | 一 一 | 一 


Original sequence| 00000000 — 00000000 | 0000000 00000000 00000000 00010111 | 00000000 00000000 


COMPAX | 010 |010 |00 0| 00000101 00010111 | 00000011 


e The counter of Second Fill Word 
M e Non-zero byte of Literal Word 


e The counter of Ist Fill Word 


unused 


Position of Literal Word 


Second Fill Word type 
First Fill Word type 
Word type:F,L 


图 3.9 COMPAX 压缩 算法 示例 


COMPAX 算法 也 是 WAH 的 改进 ,这 里 以 32b 为 例 ,但 COMPAX 的 标志 位 相对 较 
多 。 这 里 Literal 和 Fill 的 定义 同 WAH 和 PLWAH。 同 样 是 每 31b 分 成 一 个 group, Jf 
且 将 这 些 group 按照 以 下 特征 分 组 。 

(1) Literal-Fill-Literal (LFL), Hl. 1 4 literal group 十 N 个 Fill group 十 1 个 literal 
group, 且 这 两 个 literal group 的 非 0 位 (或 者 非 1 位 ) 在 同一 个 byte 上 (一 个 group 在 前 
面 补 一 位 0 即 构成 4 个 完整 的 byte, 要 求 非 零 位 在 同一 个 完整 的 byte 上) 。 

(2) Fill-Literal-Fill(FLF) ,B) N 个 Fill-group-- 1 个 literal group+ N 个 fill-group 
(对 literal group 的 要 求 同 上 ) 。 

(3) Fill(F) ,分 为 0-Fill 和 1-Fil, 无 法 按照 (1) 和 (2) 进 行 分 组 的 fill-group. 即 归 入 此 
类 型 。 

(4) Literal(L) ,无 法 按照 (1) 和 (2) 进 行 分 组 的 literal group 即 归 入 此 类 型 。 

对 于 这 4 种 类 型 ,就 有 4 种 不 同 的 word。 
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(1) L-word 第 一 位 为 标志 位 1, 余 下 31b 即 为 原来 的 literal group. 

(2) F-word 第 一 位 为 标志 位 0, 对 于 0-Fill 第 二 ,三 位 为 00, 对 于 1-Fill 第 二 ,三 位 为 
11。 余 下 29b 为 counter, 即 记录 有 多 少 个 连续 这 样 的 group. 

(3) LFL-word 第 一 位 为 标志 位 0, 第 二 、 第 三 位 为 01, 第 4、5 位 (2b) 标 识 第 一 个 
literal group 的 非 零 字 节 位 置 ( 共 4B, 标 号 为 0 一 3) ,第 6.7 位 (2b) 标 识 第 二 个 literal 
group WIER FTM E Gk 4B, 标 号 为 0 一 3) 第 8 位 标识 F 类 型 ,0 为 0-Fill,1 为 1-Fill; 第 
9 一 16 位 (8b,1b) 为 第 一 个 literal group 中 非 零 字 节 , 第 17 一 24 位 (8B,1B) 为 Fill 的 
counter ,标示 有 多 少 个 连续 的 fill group( 即 多 少 个 连续 31b 的 0/1) ,第 25 一 32 位 (8b， 
1B) 为 第 二 个 literal group 中 的 非 零 字 节 。 

(4) FLF-word 第 一 位 为 标志 位 0, 第 二 、 三 位 为 10, 第 4.5 位 为 第 一 个 fill 的 类 型 (0- 
Fill 为 00,1-Fill 为 11, 下 同 ), 第 6,7 位 为 第 二 个 fill 的 类 型 ,第 8 位 空闲 。 第 9 一 16 位 
(8b) 为 第 一 个 fill 的 counter, 第 17 一 24 位 (8b,1B) 为 literal group 的 非 零 字 节 ,第 25 一 
32 位 为 第 二 个 fill 的 counter, 

在 已 知 COMPAX 的 情况 下 ,具体 读 码 方式 如 下 。 

a) 如 果 第 一 位 为 1, 为 L-word。 

(2) 如 果 第 一 位 为 0: 

O 第 二 ,三 位 为 00: 0-fill word, 

© 第 二 ,三 位 为 11: 1-fill word, 

© 第 二 ,三 位 为 01: LFL, 

@ 第 二 ,三 位 为 10: FLF. 


3.3 流量 归档 查询 系统 


3.3.1 基于 关系 数据 库 的 系统 实现 

1. 关系 型 数据 库 

关系 型 数据 库 是 目前 在 软件 设计 与 实现 中 使 用 最 广 的 数据 库 类 型 。 关 系 型 数据 库 是 
指 基于 关系 模型 设计 的 数据 库 ,通过 数据 集 内 部 共有 特征 将 数据 联系 在 一 起 。 在 关系 型 
数据 库 中 ,有 相似 结构 的 数据 存放 在 同一 个 关系 中 ,这 种 关系 也 称 为 表 。 每 个 表 中 包含 一 
些 列 , 每 一 列 是 描述 该 关系 的 一 个 属性 ,而 每 一 行 都 具有 每 一 列 的 属性 , 行 与 行 之 间 相互 
独立 。 关 系 型 数据 库 通常 是 存储 金融 信息 、 医 疗 信息 .个 人 信息 、 制 造 信息 和 后 勤 信息 的 
首选 。 常 用 的 商业 关系 型 数据 库 有 Oracle 和 Microsoft SQL Server, 开 源 的 有 MySQL 
和 SQLite 等 。 
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2. 基于 MySQL 数据 库 的 系统 实现 

本 节 中 采用 的 关系 型 数据 库 是 使 用 频率 最 高 的 MySQL 数据 库 。 

根据 索引 的 定义 ,MySQL 数据 库 中 存放 索引 表 的 结构 如 表 3. 3 所 示 。 对 某 一 列 的 
数据 是 否 建 索引 将 影响 着 有 关 这 一 列 的 查询 速率 。 建 立 列 索引 会 明显 的 增加 一 条 记录 搬 
入 的 耗 时 。 因 此 在 选择 是 否 建 索引 时 ,应 该 选择 那些 数据 重复 率 很 小 (基本 不 重复 ) ,并 且 
在 查询 时 最 常 使 用 到 的 那些 列 。 在 这 些 列 中 ,有 该 特点 的 列 只 有 时 间 戳 。 本 节 中 将 讨论 
对 所 有 列 都 不 建 索 引 和 仅 对 时 间 戳 列 建 索引 两 种 情况 下 的 系统 的 性 能 变化 。 


表 3.3 MySQL 数据 中 存放 索引 的 表 的 结构 


索引 设计 MySQL 中 表 的 设计 
域 类 型 列 名 类 n 是 否 列 索引 
sipl byte sipl TINYINT UNSIGNED NOT NULL 5 
Sip2 byte sip2 TINYINT UNSIGNED NOT NULL "m 
sip3 byte sip3 TINYINT UNSIGNED NOT NULL "m 
sip4 byte sip4 TINYINT UNSIGNED NOT NULL 否 
dipl byte dipl TINYINT UNSIGNED NOT NULL 否 
dip2 byte dip2 TINYINT UNSIGNED NOT NULL 否 
dip3 byte dip3 TINYINT UNSIGNED NOT NULL d 
dip4 byte dip4 TINYINT UNSIGNED NOT NULL d 
sport short sport SMALLINT UNSIGNED NOT NULL E 
dport short dport SMALLINT UNSIGNED NOT NULL E 
time double time DOUBLE NOT NULL a 
fileno int fileno MEDIUMINT NOT NULL 否 
offset int offset MEDIUMINT NOT NULL 否 
protocol int proto MEDIUMINT NOT NULL 否 


在 程序 中 对 MySQL 数据 库 的 操作 是 通过 libmysql-client 函数 库 提供 的 接口 。 使 用 
SQL 语句 对 数据 库 中 的 表 进 行 插入 和 查询 操作 。 通 过 性 能 测试 ,可 以 得 出 一 个 结论 : X 
系 型 数据 库 不 适合 用 来 存储 所 设计 的 网 包 索 引信 息 。 


3.3.2 TM 系统 
通用 网 络 流量 归档 查询 系统 设计 ,主要 考虑 以 下 几 个 方面 的 设计 : 网 包 数 据 的 采集 ， 
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网 包 数 据 的 储存 和 索引 。TM(Time Machine) %80 是 一 个 典型 的 网 络 流量 归档 查 
询 系统 。 

TM 采用 了 网 流 截 短 的 方案 ,取得 了 很 好 的 节省 存储 空间 效果 。 同 时 ,TM 又 是 开源 
项 目 ,其 系统 设计 和 实现 都 有 很 多 可 以 参考 的 地 方 。 本 节 主 要 介绍 为 什么 流 截 短 的 方案 
是 可 行 的 ,以 及 TM 系统 的 软件 架构 和 实现 细节 。 

1. 流 截 短 方案 的 可 行 性 

1) 网 流 的 分 类 

互联 网 上 的 流量 可 以 被 简单 地 分 为 两 类 ,长 流 和 短 流 。 长 流 一 般 是 大 块 数据 的 传送 ， 
如 视频 、 音 乐 等 多 媒体 的 传输 ,文件 的 下 载 。 短 流 一 般 是 运行 在 网 络 上 数量 繁多 的 各 种 协 
议 的 信 令 交互 文本 网 页 等 。 大 的 流量 可 以 大 至 GB 级 别 ,小 的 流 却 可 以 不 到 1KB。 记 录 
网 络 流量 的 目的 当然 不 是 为 了 把 互联 网 上 传送 的 那些 音频 视屏 、 大 型 的 文件 给 保存 下 来 ， 
而 是 要 将 在 网 络 中 运行 的 各 种 流量 中 有 价值 的 信息 记录 下 来 。 而 这 里 ,有 价值 的 信息 是 
指 对 事后 分 析 、 研 究 有 帮助 的 信息 ,而 数据 传输 显然 不 属于 这 一 类 。 在 众多 的 网 包 包含 的 
信息 中 ,按照 对 事后 调查 研究 的 帮助 价值 由 强 到 弱 , 可 以 分 为 4 种 。 

CD 存在 信息 : 一 个 流 是 否 存 在 ,IP 地 址 .端口 ,协议 ,这 部 分 是 已 有 的 成 熟 的 网 流 信 
息 归 档 查 询 分 析 系 统 所 采集 的 信息 。 

(2) 交互 信息 : 蕴藏 在 网 包 载 荷 中 的 信息 ,不同 协 议 有 着 不 同 的 交互 命令 ,交互 信息 
指 的 是 能 确定 一 个 流 的 主要 目的 的 信息 ,如 是 什么 应 用 层 的 协议 ,要 进行 的 是 什么 操作 
(比如 HTTP GET,FTP STOR ^5), 

(3) 内 容 信息 : 蕴藏 在 网 包 载 荷 中 的 信息 , 指 交互 的 具体 内 容 ( 如 HTTP GET 请 求 
的 具体 网 页 .服务 器 返回 的 错误 信息 `FTP STOR 的 文件 名 称 .邮件 内 容 等 ) 。 

(4) 数据 信息 : 蕴藏 在 网 包 载荷 中 的 信息 , 指 纯粹 的 ,大量 的 数据 传输 (比如 网 页 上 
的 视频 和 P2P 文件 下 载 等 ) 。 

在 网 络 数据 的 传输 中 还 有 这 样 的 特点 : 大 块 数据 的 传送 总 是 在 一 些 控制 指令 传送 之 
后 。 换 句 话 说 ,在 一 个 较 大 的 流 中 (MB 级 ) , 流 的 前 部 分 更 可 能 包含 控制 信息 ,而 后 面 的 
部 分 很 可 能 只 是 纯粹 的 数据 。 因 此 , 当 人 们 不 得 不 舍弃 一 些 网 包 时 ,采用 流 截 短 的 方案 能 
最 大 限度 地 保存 下 网 流 中 的 原始 信息 ,被 舍弃 的 主要 是 一 些 价值 不 大 的 数据 信息 。 

2) 网 流 大 小 的 实际 分 布 

实际 网 络 流量 的 网 流 大 小 分 布 呈 明显 的 长 尾 状 ,示意 图 如 图 3. 10 所 示 。 图 中 横 轴 为 
流 的 编号 ,所 有 流 按 照 大 小 顺序 排序 ,大 流 排 在 前 ; 纵 轴 为 对 应 的 流量 大 小 。 这 种 长 尾 分 
布 意味 着 在 对 网 络 资源 的 占用 方面 ,网 络 的 大 部 分 资源 被 一 些 较 大 的 流 占据 ;在 网 流 数量 
方面 ,这 些 占 网 络 大 部 分 资源 的 流 的 数量 与 无 数 较 小 的 流 的 数量 比 起 来 ,又 是 很 微小 的 。 

图 3.11 WA TMU 一 文 ,图 中 的 数据 分 别 来 自 LBL( 美 国 洛 伦 效 伯克利 国家 实验 
室 )\MWN( 慕 尼 黑 科学 研究 网 络 ) 和 NERSC( 美 国 国家 能 源 研究 科学 计算 中 心 )。 图 中 
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网 流 大 小 


网 流 编号 (从 大 至 小 排序 ) 
图 3.10 网 络 流量 的 长 尾 分 布 示 意图 


的 横 坐 标 是 流 的 大 小 , 纵 坐 标 对 应 大 于 相应 大 小 的 流 在 数量 上 占 总 网 流 数 的 比重 。 可 以 
看 出 ,在 3 个 数据 集中 ,大 于 10KB 的 流 所 占 比 重 均 在 20% 以 下 。 其 中 ,NERSC 的 流量 
中 含 大 流 的 文件 较 多 ,因为 该 网 络 内 的 服务 器 主要 都 用 来 做 大 型 数据 的 存储 ,而 基本 没有 
什么 网 页 应 用 ,因此 与 LBL 和 MWN 的 数据 特点 差别 较 大 。 竖 线 位 置 对 应 着 20KB 的 
流 , 结 果 显 示 有 12% 的 LBL,14% 的 NERSC 和 15% 的 MWN 的 流量 大 于 20KB, 而 它们 
所 包含 的 字 节 数 却 分 别 是 数据 集 的 96%、99. 86% 和 87%。 这 预示 着 如 果 进 行 流 截 短 , 系 
统 将 可 能 处 理 相对 于 采取 全 记录 策略 时 能 记录 的 10 一 100 倍 的 流量 。 


oE 
oH 
At 
E 
2 0.001 
a 
E) 
z L 
K 
JE 1e-05 
x 
1e-07 E 
1 10 — 100 1000 10000 le+05 le+06 le+07 le+08 le+09 
流 大 小 NB) 
图 3.11 对 数 -对 数 流 大 小 互补 累积 分 布 图 
2. 软件 架构 


1) 软件 架构 图 
由 于 TM 是 开源 项 目 , 并 且 作 者 缺少 开发 类 似 系统 的 经 验 , 于 是 首先 对 TM 系统 的 
实现 进行 了 彻底 的 研究 。TM 系统 的 架构 如 图 3.12 所 示 。 
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图 3.12 TM 系统 的 软件 架构 


从 图 3. 12 中 可 以 看 出 系统 主要 分 用 户 接口 .网 包 捕获 和 分 类 、 流 表 维 护 、 存 储 容器 和 
索引 5 个 大 块 。 用 户 可 以 通过 用 户 接口 实时 地 与 系统 进行 交互 , 设 定 监听 的 网 卡 、 过 滤 规 
则 和 分 类 规则 ,并 进行 网 包 的 查询 。 系 统 从 网 络 接口 (网 卡 ) 捕 获 网 包 , 网 包 经 过 分 类 后 ， 
被 分 配 到 相应 类 的 存储 容器 。 存 储 容器 维护 一 个 在 内 存 中 的 缓存 队列 , 当 队 列 满 时 ,把 数 
据 导 出 至 磁盘 。 流 表 的 两 个 主要 功能 是 加 速 分 类 和 实现 流 截 短 。 流 表 中 记录 了 一 个 流 属 
于 哪 一 个 分 类 及 目前 通过 的 流量 有 多 少 等 统计 信息 。 存 储 模 块 将 所 存储 的 网 包 的 信息 交 
给 索引 模块 ,建立 相关 的 索引 , 供 查询 模块 使 用 。 在 下 面 会 对 每 个 模块 会 进行 更 详细 的 
说 明 。 

2) 模块 说 明 

(1) 用 户 接口 模块 。 

用 户 接口 模块 以 命令 行 的 方式 和 用 户 实 现 交互 ,首先 读 取 用 户 的 输入 ,并且 做 语法 分 
析 ,将 可 以 识别 的 命令 进行 执行 。TM 中 语法 分 析 采 用 的 是 开源 工具 yacc, 该 工具 是 一 个 
UNIX/Linux 环境 下 的 编译 器 代码 生成 器 ( 即 用 来 生成 编译 器 的 编译 器 ) 。yacec 常 与 词法 
解析 器 Lex 一 起 使 用 ,生成 语法 解析 器 。 该 模块 获取 并 解析 用 户 输入 后 ,调用 相应 的 函 
数 ,将 用 户 输入 的 命令 和 参数 传 给 其 他 模块 的 接口 执行 ,并 将 执行 结果 返回 给 用 户 。 

(2) 网 包 捕 获 和 分 类 模块 。 

网 包 的 捕获 用 的 是 libpcap 库 。libpcap 是 UNIX/Linux 上 实现 网 络 数据 捕获 的 常用 
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库 。 大 部 分 网 络 监控 软件 都 应 用 这 个 库 来 实现 网 包 的 获取 。 关 于 libpcap 的 具体 介绍 在 
3.1. 3 节 做 了 相关 介绍 。 分 类 模块 根据 用 户 对 类 的 定义 (包含 名 称 、 特 征 和 优先 级 等 信 
息 ) 将 网 包 分 至 对 应 的 类 中 。 特 征 采 用 的 是 伯克利 包 过 滤器 (Berkeley Packet Filter， 
BPF) 格 式 的 字符 串 , 可 以 对 网 包 的 基本 信息 进行 描述 ,并 且 libpcap 能 直接 在 线 编译 执行 
该 格式 的 过 滤器 。 分 类 模块 将 网 包 递交 给 匹配 过 滤 条 件 的 优先 级 最 高 的 类 进行 下 一 步 
处 理 。 

(3) 流 表 维 护 模块 。 

流 表 记录 的 是 网 络 中 活跃 的 流 的 信息 ,对 于 每 个 流 这 些 信息 包括 流 的 五 元 组 信息 \ 已 
经 通过 的 字 节 数 、 分 类 模块 分 类 的 结果 、 流 的 起 始 时 间 、 最 近 一 个 包 的 到 达 时 间 等 。 流 表 
维护 模块 是 为 分 类 模块 和 存储 容器 模块 提供 支持 。 分 类 模块 处 理 一 个 网 包 时 , 先 在 流 表 
中 查询 是 否 有 相应 记录 ,如 果 有 , 则 直接 利用 原 有 的 分 类 结果 ,将 网 包 递交 给 相应 类 的 容 
器 中 ; 若 没 有 , 则 在 流 表 中 新 增 一 条 记录 并 存 人 分 类 结果 。 存 储 模块 收 到 一 个 网 包 时 , 首 
先 在 流 表 中 查询 其 所 属 流 的 字 节 数 是 否 已 经 超过 截断 点 , 若 超 过 则 仅 对 包 的 信息 进行 相 
应 的 统计 操作 ,而 不 再 将 网 包 放 入 内 存 的 缓存 队列 中 。 为 了 控制 流 表 在 内 存 中 的 大 小 , 设 
置 一 个 超时 时 间 ,每 隔 一 段 时 间 将 那些 超过 超时 时 间 仍 未 来 新 的 网 包 的 流量 的 记录 从 流 
表 中 移 除 。 

(4) 存储 容器 模块 。 

由 于 内 存 和 硬盘 的 读 取 速度 相差 几 个 数量 级 ,频繁 的 磁盘 写 操作 性 能 较 低 。 因 此 存 
储 容器 模块 在 内 存 中 维护 一 个 缓存 队列 。 当 缓存 队列 满 时 ,再 将 队列 中 的 一 块 数据 存 人 
硬盘 , 腾 出 空间 给 新 的 数据 。 这 样 的 批量 操作 能 提高 系统 效率 。 

(5) 索引 模块 。 

存储 容器 模块 需要 索引 模块 对 存储 的 数据 进行 索引 。 为 了 以 多 线程 的 方式 运行 , 索 
引 模块 维护 一 个 待 处 理 的 队列 。 存 储 模块 如 果 有 要 索引 的 网 包 就 递交 到 这 个 队列 中 。 索 
引 模 块 分 为 两 个 部 分 ,内 存 中 保存 的 索引 和 写 和 人 到 文件 的 索引 。 虽 然 人 们 很 希望 所 有 的 


块 利用 索引 模块 返回 的 查询 结果 ,到 存储 容器 模块 的 内 存 队 列 和 相应 的 网 流 文件 中 提取 
相关 的 网 包 ,整合 成 一 个 文件 返回 给 用 户 。 

3) 线程 说 明 

TM 软件 中 这 些 模块 的 运行 是 以 多 线程 的 方式 并 行 的 ,共有 8 个 线程 。 其 中 用 户 界 
面 是 一 个 线程 ,统计 和 日 志 是 一 个 线程 ,网 包 的 抓 取 和 分 类 是 一 个 线程 ,4 种 不 同类 型 的 
索引 每 种 索引 类 型 分 别 是 一 个 进程 ,索引 的 聚合 是 一 个 线程 。 

3. 软件 实现 细节 


本 节 将 介绍 几 个 重要 模块 的 实现 细节 。 索 引 模块 是 研究 的 重点 ,因此 下 面 单独 介绍 。 
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本 节 介 绍 流 表 维 护 模块 和 存储 容器 模块 中 内 存 中 缓存 的 管理 以 及 数据 导出 到 硬盘 的 
机 制 。 

1) 流 表 的 维护 

流 表 其 实 是 一 个 散 列表 ,对 于 一 个 流 , 将 其 的 五 元 组 信息 进行 散 列 ,得 到 一 个 整数 ,再 
将 这 个 整数 对 散 列表 的 表 长 取 模 ,就 得 到 一 个 流 的 记录 应 该 在 散 列表 的 位 置 。 如 果 两 个 
流 的 五 元 组 信息 不 一 致 ,但 却 又 分 在 了 散 列 表 的 同一 个 位 置 , 则 出 现 了 碰撞 。 因 此 散 列 表 
内 的 每 个 位 置 指向 的 都 是 一 个 碰撞 队列 ,队列 中 的 元 素 散 列 值 可 能 一 样 也 可 能 不 一 样 ,但 
是 对 散 列表 长 取 模 后 都 被 分 在 了 相同 的 位 置 。 

查询 某 个 流 是 否 存 在 时 ,首先 获取 这 个 流 应 该 在 散 列表 的 什么 位 置 , 然 后 判断 这 个 位 
置 上 是 否 有 流 记录 。 如 果 有 则 在 该 位 置 的 碰撞 队列 顺序 查找 ,逐个 比 对 五 元 组 信息 是 否 
完全 一 致 。 如 果 未 找到 五 元 组 信息 完全 一 致 的 流 记录 , 则 表示 这 是 一 个 新 出 现 的 流 ,在 流 
表 中 并 不 存在 。 

如 果 流 表 中 不 存在 相应 的 信息 , 则 需要 在 流 表 中 插入 新 的 流 记录 。 这 时 将 流 记录 添 
加 到 该 流 五 元 组 对 应 的 散 列表 的 相应 位 置 所 指向 的 碰撞 队列 中 。 

流 表 向 网 包 分 类 模块 返回 流 信息 结构 的 指针 ,后 者 利用 该 指针 对 流 信 息 做 更 新 。 

流 表 会 定时 删除 其 中 超时 的 流 记 录 。 超 时 时 间 为 用 户 制定 , 记 为 timeout «A Vi fri E 
中 显示 最 近 一 个 网 包 在 上 时 来 到 ,而 此 刻 时 间 为 工 , 则 当 timeout 十 :去 工事 该 流 被 视 为 
超时 。 

2) 内 存 中 的 缓存 队列 

TM 的 存储 容器 模块 管理 的 缓存 队列 是 一 个 FIFO 队列 (First In First Out) 。 队 列 
实际 上 是 一 块 很 大 的 连续 内 存 空间 。 要 存储 的 网 包 一 个 接 一 个 地 连续 地 存放 在 这 样 的 一 
块 内 存 空间 中 , 当 内 存 空间 写 尽 后 ,将 内 存 空间 的 一 部 分 导入 硬盘 ,释放 出 新 的 可 用 的 空 
间 。 具 体 实现 如 图 3. 13 所 示 。 

程序 中 记录 内 存 的 起 始 地 址 start, 开 辟 一 大 块 内 存 空间 后 ,在 最 后 一 段 预 留 出 一 个 
最 大 包 所 占 空间 ,并 记录 位 置 end, 如 图 3. 13(a) 所 示 。 同 时 维护 指针 变量 sp、lp 和 wp. 
其 中 ,sp 表示 队列 中 最 旧 的 有 效 网 包 所 在 位 置 ,lp 表示 上 一 个 包 写 入 的 位 置 ,wp 表示 当 
前 包 写 入 的 位 置 。 

起 始 时 ,队列 中 没有 数据 ,sp、lp、wp 均 指向 start 位 置 。 随 后 , 当 网 包 到 来 时 ,每 写 入 
一 个 网 包 ,lp 被 赋值 为 wpm wp 指针 向 后 移动 刚 写 入 的 包 长 ,如 图 3. 13(b) 所 示 。 

当 写 入 网 包 后 ,wp 超过 end 位 置 时 ,wp 回 卷 到 start 位 置 ,如 图 3. 13(c) 所 示 。 

当 wp 回 卷 到 start 位 置 后 ,长 度 为 1 的 新 的 网 包 到 来 时 ,检查 wp 和 sp 的 位 置 ,如 果 
wptl>sp, 意味 着 如 果 继 续 写 和 人 原 有 的 有 效 数 据 将 会 被 覆盖 ,因此 需要 导出 一 部 分 队列 
中 的 数据 ,给 新 的 包 腾 出 空间 。 所 以 从 sp 开始 .导出 sp 后 面 的 个 包 , 并 将 sp 指针 后 移 
到 未 导出 的 最 旧 数 据 的 起 始 位 置 ,如 图 3. 13(c) 所 示 。 之 后 继续 写 和 人 新 的 包 , 知 道 下 一 次 
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图 3.13 TM 系统 内 存 中 的 FIFO 队列 维护 示意 图 


wp 十 ]>sp 发 生 时 ,再 进行 队列 中 旧 数 据 的 导出 ,如 图 3. 13(d) 所 示 。 

在 内 存 中 自己 维护 一 个 连续 内 存 的 FIFO 队列 的 好 处 是 ,不 用 频繁 进行 内 存 的 分 配 
与 释放 , 相 比 用 链表 维护 FIFO 队列 ,效率 更 加 高 。 

3) 将 记录 转移 到 硬盘 

当 内 存 中 的 FIFO 队列 满 时 ,要 向 磁盘 导出 一 批 旧 的 数据 ,这 需要 对 硬盘 文件 的 读 写 
操作 。 由 于 网 络 流量 很 大 ,因此 势必 要 对 文件 大 小 做 限制 ,不 然 将 带 来 查询 时 文件 读 写 的 
巨大 负担 。 

TM 允许 用 户 设置 单个 文件 的 大 小 上 限 , 当 进行 写 操作 的 一 个 文件 大 小 超过 这 个 上 
限时 ,就 会 关闭 该 文件 , 另 开 一 个 文件 继续 写 操作 。 文 件 名 为 class_ 类 名 _8 位 的 十 六 进 
制 数 "。 对 每 一 个 类 ,该 数字 从 1 开始 ,逐次 增加 。 存 储 效果 如 图 3. 14 所 示 。 

4. 网 流 索 引 

前 文 介绍 TM 一 共有 5 个 线程 与 索引 有 关 , 也 介绍 了 TM 是 如 何在 内 存 中 缓存 包 以 
及 当 内 存 中 的 缓存 队列 满 时 ,将 流量 存 人 到 规定 大 小 的 文件 中 。 本 节 详 细 介 绍 TM 是 如 
何 为 内 存 缓存 队列 以 及 磁盘 上 的 文件 做 索引 并 根据 该 索引 进行 查询 。 

1) 索引 概述 

TM 中 建 索 引 是 根据 流 活跃 的 时 间 , 记 录 流 活跃 的 期 间 。 活 路 的 区 间 是 一 组 区 间 的 
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集合 ,比如 某 个 IP 的 活跃 区 间 是 (a,b)、(c,d)、(e,f)。 查 询 时 ,得 到 流 活跃 的 期 间 , 再 利 
用 时 间 区 间 的 信息 在 内 存 和 文件 中 查找 对 应 的 网 包 。TM 中 维持 4 种 不 同 的 索引 ,它们 
都 继承 自 索 引 类 ,每 一 种 索引 都 有 单独 的 进程 。 同 时 全 局 中 还 有 一 个 索引 聚合 线程 每 隔 

- 段 时 间 触 发 一 次 每 种 索引 的 聚合 操作 。4 种 支持 的 索引 如 图 3. 15 所 示 ,分别 包 含 不 同 
含量 的 信息 : 单元 组 索引 只 包含 一 个 IP 地 址 ,也 就 是 说 ,无 论 源 地 址 或 是 目标 地 址 为 a 
的 网 包 , 即 使 它们 属于 不 同 的 网 流 , 如 果 采 用 单元 组 索引 ,都 会 被 记录 到 IP 地 址 1 a 的 
索引 项 。 分 成 4 种 索引 的 好 处 是 查询 时 不 用 再 做 集合 的 归并 操作 ,对 于 各 式 各 样 的 查询 ， 
能 够 通过 索引 中 存储 的 记录 ,直接 得 到 结果 ;但 是 同时 也 带 来 不 好 的 影响 , 即 增 加 了 计算 


负担 。 
索引 
单元 组 -元 组 四 元 组 五 元 组 

IP 地 址 1 IP 地 址 1 IP 地 址 1 IP 地 址 1 

IP 地 址 2 端口 端口 ! 
IP 地 址 2 IP 地 址 2 

协议 端口 2 

协议 


图 3.15 TM 中 的 索引 类 型 
由 于 索引 线程 和 包 处 理 线程 是 相互 独立 的 两 个 线程 。 因 此 每 个 索引 线程 都 维护 一 个 
队列 。 当 包 处 理 线程 处 理 一 个 网 包 时 ,会 将 网 包 投 送 到 每 一 个 索引 线程 的 队列 中 。 索 引 
线程 是 一 个 读 取 队 列 中 的 网 包 并 进行 索引 更 新 的 循环 ,直到 程序 结束 才 停 止 。 
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像 网 包 一 样 ,由 于 内 存 容量 的 限制 ,索引 不 可 能 都 存放 在 内 存 中 ,必须 定时 地 向 硬盘 
导出 。 本 节 将 分 别 介绍 内 存 中 的 索引 管理 和 导出 机 制 。 

2) 缓存 在 内 存 中 的 索引 

对 应 一 种 索引 类 型 T, 维 护 索 引 工 的 线程 T_thread 维护 一 张 散 列表 , 散 列表 中 存放 
着 已 经 建立 的 记录 。 每 一 条 记录 中 含有 该 记录 对 应 的 索引 变量 上 ,一 组 上 所 对 应 流 的 活跃 
时 间 区 间 的 集合 ,以 及 一 些 统 计 信 息 。 

每 次 T_thread 从 队列 中 获取 一 个 网 包 ,并且 将 该 网 包 的 信息 进行 提取 ,获取 对 应 的 
索引 变量 上 后 ,首先 在 散 列表 中 查找 索引 变量 为 上 的 记录 是 否 已 经 存在 , 若 不 存在 则 在 散 
列表 中 新 建 一 条 索引 为 上 的 记录 。 之 后 利用 网 包 到 达 的 时 间 time 对 相应 的 记录 进行 更 
新 。 设 该 记录 中 离 time 最 近 的 时 间 跨 度 为 (a,5), 则 更 新 规则 如 下 : 首先 判断 time-b 是 
否 小 于 阔 值 {,f 是 事先 设 定 的 常数 , 若 小 于 则 将 最 新 的 时 间 跨 度 更 改 为 (a,time) ,否则 新 
加 一 个 时 间 跨 度 (time, time)。 

3) 索引 向 硬盘 的 导出 

虽然 像 网 包 一 样 ,索引 也 不 能 在 内 存 中 长 久 地 保存 ,但 是 索引 的 导出 条 件 却 与 网 包 的 
导出 发 生 的 条 件 截 然 不 同 。 网 包 的 导出 发 生 在 内 存 中 用 来 缓存 网 包 的 FIFO 队列 没有 空 
间 时 ,而 TM 并 没有 对 索引 在 内 存 中 的 大 小 加 以 限制 。 索 引 的 导出 发 生 在 存在 与 内 存 
FIFO 队列 的 最 旧 记 录 的 时 间 比 上 次 索引 导出 的 时 间 还 要 新 的 时 候 。 这 时 候 意味 着 现在 
内 存 中 的 索引 对 应 的 流量 很 多 已 经 不 在 内 存 中 了 。 

导出 后 将 清空 散 列表 ,同时 根据 反馈 信息 调整 新 的 散 列 表 的 大 小 。 如 果 原 散 列 表 的 
大 小 为 size, 散 列表 中 存储 的 记录 的 个 数 为 num, 则 有 : 如果 size 二 2Xnum', 则 新 的 散 列 
表 大 小 缩减 为 size/2; 如 果 num>2 X size, 则 新 散 列表 的 大 小 扩大 为 2X sizes 其余 情 况 散 
列表 的 大 小 不 变 。 

导出 后 旧 的 散 列表 中 包含 的 信息 将 写 人 磁盘 文件 中 ,格式 如 下 : 文件 开头 16B 是 两 
个 double 类 型 的 数 ,分 别 代 表 该 索引 的 起 始 时 间 和 结束 时 间 , 之 后 的 4B 是 一 个 int 类 型 
的 数 ,表示 该 索引 文件 中 使 用 的 索引 类 型 的 数据 结构 占 的 字 节 数 。 之 后 的 全 部 文件 连续 
写 人 的 是 (索引 类 型 变量 ,起 始 时 间 终止 时 间 ) 这 样 的 结构 体 ,一 直到 文件 的 结尾 。 需 要 
注意 的 是 散 列表 中 一 个 索引 下 的 活跃 时 间 区 间 集 合 中 的 区 间 如 果 大 于 一 个 ,所 有 的 时 间 
区 间 都 将 按 上 面 所 说 的 格式 连续 地 写 入 索引 文件 中 。 导 出 文件 的 文件 名 类 似 流 文件 的 命 
名 方法 ,为 “索引 类 型 _ 聚合 等 级 _8 位 十 六 进 制 编号 ”。 

4) 索引 的 聚合 

为 了 避免 索引 文件 序号 的 飞速 增长 ,TM 设计 了 索引 的 聚合 机 制 。 全 局 中 有 一 个 索 
引 聚 合 的 线程 ,定时 调用 各 个 索引 线程 的 聚合 方法 。 聚 合 的 目的 就 是 将 几 个 小 的 索引 文 
件 合并 为 一 个 大 的 索引 文件 。 在 索引 文件 名 中 有 一 个 区 域 代表 聚合 等 级 。10 个 第 级 
的 文件 会 聚合 成 一 个 2 十 1 级 的 文件 。 实 际 结果 如 图 3.16 所 示 。 
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图 3.16 TM 索引 的 聚合 结果 示例 


5. 查找 过 程 

当 用 户 输 入 查询 请 求 时 ,用户 接 口 线程 对 用 户 的 输入 进行 分 析 , 判 断 用 户 是 利用 哪 一 
种 索引 进行 查询 。 查 找 的 过 程 分 为 两 个 步骤 : 第 一 个 步骤 是 从 建立 的 索引 中 提取 对 应 网 
流 的 活跃 时 间 区 间 ,完成 这 个 步骤 要 对 内 存 中 的 索引 和 磁盘 上 的 索引 进行 搜索 ;第 二 个 步 
又 是 利用 得 到 的 时 间 区 间 , 到 相应 的 内 存 缓存 队列 和 磁盘 文件 中 提取 要 查询 的 流量 。 假 
设 用 户 使 用 索引 类 型 ,要 搜索 的 网 包 的 索引 变量 为 +, 下 面 简 述 每 一 过 程 的 实现 。 

1) 从 内 存 中 的 索引 提取 时 间 区 间 

在 管理 工 索引 线程 所 维护 的 散 列表 中 查找 +, 若 不 存在 则 返回 ; 若 存在 则 记录 下 上 所 
对 应 记录 的 活跃 时 间 区 间 集 合 中 与 要 查询 的 时 间 区 间 有 重合 部 分 的 区 间 。 

2) 从 硬盘 上 的 索引 文件 提取 时 间 区 间 

在 所 有 的 工 索 引导 出 的 索引 文件 中 ,首先 根据 时 间 判 断 是 否 有 必要 遍历 文件 ,如 果 
该 文件 的 时 间 区 间 与 想 要 查找 的 时 间 区 间 没 有 交集 , 则 跳 过 该 文件 ;如 果 不 能 判断 是 否 存 
在 交集 , 则 需要 对 该 文件 进行 遍历 ,找到 上 所 对 应 记录 所 记载 的 时 间 区 间 ,记录 下 那些 与 
要 查询 的 时 间 区 间 有 重合 的 时 间 区 间 。 

3) 从 内 存 缓存 队列 中 提取 匹配 的 网 包 

将 上 两 步 的 结果 合并 后 ,就 可 以 得 到 一 个 总 的 时 间 区 间 和 集合, 要 查找 的 对 象 一 定 存在 
于 这 些 时 间 集 合 中 。 利 用 这 些 集 合 可 以 缩小 需要 比 对 的 网 包 记 录 的 集合 。 

首先 在 内 存 缓存 队列 中 提取 匹配 的 网 包 。 对 应 一 个 要 查询 的 时 间 区 间 (s,e) 和 一 个 
时 间 集 合 中 的 时 间 区 间 (a,5) ,因为 两 个 区 间 有 交集 ,显然 满足 se ca cba es <b. tk 
时 首先 判断 (a,5) 是 否 与 内 存 队 列 中 所 含 网 包 的 时 间 区 段 (t_oldest,t_newest) 重 合 ,t_ 
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oldest 是 内 存 缓存 队列 中 最 早 的 网 包 ,t_newest 是 内 存 队 列 中 最 新 的 网 包 , 若 没有 交集 则 
忽略 , 若 有 交集 则 说 明 内 存 队列 中 可 能 包含 该 网 包 ,需要 对 内 存 队 列 进 行 搜索 ,步骤 如 下 。 

首先 判断 搜索 的 起 始点 ,如 果 at oldest. 则 从 缓存 队列 中 最 早 的 有 效 包 开始 逐个 
搜索 ,逐一 检查 ,如 果 匹 配 直到 某 个 包 的 时 间 超 出 查询 范围 或 查 完 队列 中 最 后 一 个 包 。 如 
Fa>t_oldest. 则 要 首先 在 内 存 中 确定 时 间 截 在 a 之 后 的 第 一 个 包 。 由 于 从 队列 第 一 个 
有 效 包 开始 顺序 查找 并 不 是 最 优 的 方案 ,TM 设计 了 很 巧妙 的 “近似 折 半 搜索 ?来 加 速 搜 
索 速 度 。 注 意 到 内 存 中 的 缓存 队列 是 一 块 连续 的 数据 , 仅 有 的 指针 分 别 指向 下 次 写 的 位 
置 ` 上 次 写 的 位 置 和 最 早 的 有 效 包 的 位 置 ,而 内 存 中 的 数据 并 没有 统一 的 大 小 ,有 的 包 长 ， 
有 的 包 短 。 如 果 之 前 没有 记录 包 的 起 始 位 置 , 只 有 从 最 早 有 效 包 的 位 置 开 始 向 后 遍历 , 才 
可 能 获得 其 他 包 的 位 置 。 但 是 如 果 事 先 将 所 有 包 的 位 置 记录 下 来 ,开销 比较 大 ,意味 着 还 
要 维护 一 个 指针 的 FIFO 队列 。TM 设计 了 一 种 折 中 的 方案 ,将 内 存 分 为 很 多 格 , 每 格 有 
特定 的 长 度 , 每 格 关联 一 个 指针 ,记录 这 一 格 中 第 一 个 网 包 所 在 的 位 置 。“ 近 似 对 半 搜 索 ” 
时 ,利用 这 些 格 关联 的 指针 ,确定 离 a 最 接近 的 但 比 a 早 的 那 一 个 指针 所 指 的 包 , 从 这 个 
指针 所 指 的 位 置 开始 向 后 搜索 。 算 法 示意 图 如 图 3. 17 所 示 。 

NULL 


alim [o 1|2|3]|4|5|s6 
77 = 22, 
sp 


s_ap=0 w_ap=5 Lap=5 lp wp 


图 3.17 TM 近似 对 半 搜 索 算法 示意 图 


图 3.17 中 ,s_ap、l_ap、w_ap 分 别 表示 sp、lp、wp 所 在 的 格 , 浅 绿 和 蓝 色 表示 在 内 存 
中 顺序 存放 的 网 包 。align 指针 数组 中 第 n 项 指向 第 n 格 的 第 一 个 包 。 如 果 第 i 格 的 开 
始 包含 于 无 效 区 域 中 , 则 align 数组 第 i 个 元 素 指 向 NULL。 无 效 区 域 是 指 已 经 释放 的 为 
新 的 写 和 人 预 留 的 空间 ,里面 的 信息 均 会 被 覆盖 ,对 应 于 红色 斜纹 所 示 部 分 。 近 似 对 半 搜 索 
就 是 指 的 是 在 align 数组 中 的 指针 所 指 的 元 素 中 进行 对 半 查 找 , 找 到 其 中 时 间 戳 离 a 最 接 
近 且 比 a 早 的 一 项 。 

4) 从 磁盘 文件 中 提取 匹配 的 网 包 

遍历 磁盘 上 的 网 包 导 出 文件 ,判断 要 查询 的 时 间 区 间 是 否 与 一 个 网 包 文件 包含 的 时 
间 跨 度 重合 ,如 果 不 重合 则 查 下 一 个 文件 ,直到 所 有 文件 遍历 完 ,如 果 有 重合 的 部 分 则 跳 
到 重合 部 分 的 开始 ,依次 遍历 剩 下 文件 中 的 网 包 , 逐 一 判断 是 否 匹 配 搜 索 条 件 ,如 果 匹 配 
则 提交 给 搜索 结果 ,直到 所 查 的 网 包 时 间 超 出 要 查询 的 区 间或 搜索 到 文件 尾 。 

从 内 存 缓存 中 和 从 磁盘 文件 中 搜索 出 的 匹配 查询 要 求 的 网 包 将 合并 在 一 起 ,以 查询 
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语句 中 指定 的 名 字 输 出 到 查询 结果 目录 中 。 

6. 系统 性 能 

1) 存储 性 能 

本 章 中 涉及 的 实验 数据 集 来 自 北京 市 首 信 公 司 某 IDC 机 房 的 出 口 网 关 镜 像 流量 ,大 
小 为 102GB ,在 后 文中 ,我们 简称 为 TraceA。TraceA 由 许多 个 100MB 级 的 文件 组 成 。 

为 了 测试 TM 的 存储 性 能 ,作者 改写 了 TM 的 网 包 读 入 模块 ,使 其 能 够 连续 地 读 和 人 
网 包 文 件 , 以 TraceA 作为 输入 进行 测试 。 在 离线 模式 下 TM 会 尽 最 大 速度 处 理 网 包 ,其 
处 理 TraceA 所 花 时 间 如 表 3.4 所 示 。 

表 3.4 TM 处 理性 能 测试 结果 


测试 样本 TraceA 
流量 文件 大 小 102GB 
网 包 数 422 505 000 
处 理 时 间 4971s 
处 理 速率 ( 按 字 节 ) 20. 5MB/s 
处 理 速率 ( 按 网 包 个 数 ) 84 994 Packets/s 
2) 查询 性 能 


针对 TraceA ,我 们 分 别 构造 两 组 查询 ,分 别 表 示 为 Q1、Q2, 每 组 查询 集中 均 有 10 条 
不 同 的 查询 语句 。 其 中 一 组 中 所 含 查询 都 是 全 局 查询 , 即 不 给 出 时 间 范 围 ,二 组 中 的 查询 
均 给 出 小 于 600s 的 时 间 区 域 。 测 试 结 果 如 表 3. 5 所 示 。 


33.5 TM 查询 性 能 测试 结果 


单位 : 秒 TraceA 查询 耗 时 

查询 编号 Ql Q2 
1 5. 42 1.85 
2 1.82 0.26 
3 3.12 2.87 
4 5.06 0. 24 
5 14, 92 0.16 
6 2.72 0. 22 
7 2.23 0. 26 
8 7.14 0.21 
9 82.15 0.07 
10 2.74 0.15 
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3.3.3 TIFA 系统 实现 


本 文 主要 研究 100Mbps 一 1Gbps 级 的 网 络 环境 中 ,流量 归档 查询 系统 的 设计 与 实 
现 。 软 件 运 行 在 x86 平台 Linux 系统 上 ,能 在 普通 配置 的 计算 机 上 实现 对 目标 量 级 的 网 
流 的 记录 、 索 引 和 在 线 查 询 的 功能 。 


1. 网 络 流量 数据 特点 


网 包 的 索引 信息 具有 以 下 一 些 特点 : 海量 、 数 据 结构 固 定 、 只 增 不 改 、 重 复 性 较 高 。 
海量 是 指 网 包 索 引信 息 条 数 众多 ,一 天 可 以 产生 几 百 万 条 甚至 上 亿 条 索引 信息 。 数 据 结 
构 固 定 是 指 每 一 条 网 包 的 索引 信息 都 有 固定 的 格式 和 固定 的 长 短 。 只 增 不 改 是 指 网 包 的 
索引 信息 只 会 不 断 增 加 ,一 旦 产生 ,以 后 不 可 能 也 不 需要 再 进行 修改 。 重 复 性 高 指 就 每 一 
个 域 来 看 ,一 个 域 中 的 千 万 条 数据 出 现 大 量 的 重复 。 这 些 特点 导致 使 用 关系 型 数据 库 处 
理 这 样 的 数据 效率 并 不 高 。 

2. 基于 FastBit 的 TIFA 系统 实现 

本 节 提 出 的 TIFA(TImemachine 十 FAstbit) 系 统 设计 ,利用 FastBit 的 位 图 索引 数据 
Ve ,进行 网 包 索 引信 息 的 建立 .存储 与 查询 。FastBitG3 是 一 个 开源 的 支持 SQL 语言 的 位 
图 索引 数据 库 的 实现 。 

FastBit 并 不 提供 网 流 处 理 的 程序 接口 ,编译 FastBit 源 代 码 后 得 到 可 执行 文件 ,需要 
通过 命令 行 参数 的 形式 和 位 图 索引 数据 库 进行 操作 。FastBit 将 一 个 文件 夹 作为 一 个 表 ， 
文件 夹 中 有 该 表 的 定义 说 明 。 在 一 个 表 中 ,每 一 列 都 是 单独 的 一 个 文件 , 除 此 之 外 每 一 列 
还 有 一 些 FastBit 生成 的 索引 文件 。 

存储 时 ,指定 包含 数据 的 CSV 格式 的 文件 以 及 存储 时 各 个 域 的 定义 和 存储 的 表 的 位 
P. CSV 格式 是 使 用 逗号 将 各 列 元 素 分 开 的 格式 。FastBit 接收 命令 后 ,利用 各 个 域 的 
定义 从 CSV 文件 中 读 取 相 应 的 数据 ,并 将 数据 增加 到 指定 的 表 中 。 查 询 时 ,指定 相应 的 
表 和 查询 的 SQL 语句 以 及 输出 的 方式 ,FastBit 将 从 指定 的 表 中 搜索 符合 查询 条 件 的 记 
录 ,并 以 指定 的 输出 方式 将 结果 以 CSV. 文件 的 形式 保存 在 指定 的 文件 中 或 打印 在 屏 
幕 上 。 

由 于 一 个 CSV 文件 中 可 以 存放 多 条 记录 ,因此 可 以 实现 一 次 性 导入 多 条 数据 ,这 样 
可 以 减 小 以 命令 行 形式 对 FastBit 数据 库 进行 操作 带 来 的 多 余 时 间 消 耗 。 系 统 流程 如 
图 3.18 所 示 。 产 生 一 条 索引 后 ,首先 将 索引 存储 到 索引 缓存 中 ,累积 一 定 的 条 数 后 ,将 组 
存 中 的 索引 记录 以 CSV 格式 写 和 一 个 文件 ,并 利用 FastBit 提供 的 命令 将 文件 中 的 内 容 
添加 到 FastBit 数据 库 的 表 中 。 处 理 完 后 清空 缓存 ,循环 使 用 。 同 时 维护 FastBit 数据 库 
中 的 表 , 使 得 每 一 个 表 中 的 记录 条 数 不 至 太 大 。 当 一 个 表 中 的 条 数 达 到 一 定 界 限时 ,重新 
建立 一 个 表 。 系 统 维护 每 一 个 表 所 拥有 记录 的 时 间 范 围 ,这 样 在 查询 中 ,可 以 通过 时 间 区 
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循环 使 用 


FastBit 数 据 库 


FastBit 命 令 


图 3.18 使 用 FastBit 数据 库 进行 索引 信息 存储 的 流程 


间 过 滤 掉 一 些 不 必 的 搜索 。 

查询 时 ,利用 查询 的 时 间 段 确定 需要 进行 搜索 的 表 , 并 对 这 些 表 利 用 FastBit 进行 查 
找 ,将 查询 结果 输出 到 指定 文件 ,再 把 文件 中 的 内 容 读 和 人 内存, 解析 出 文件 编号 和 在 文件 
中 的 偏 移 量 等 信息 ,从 相应 位 置 提取 网 包 。 


3. 基于 FastBit 的 TIFA 系统 性 能 


同样 对 使 用 FastBit 数据 库 所 实现 的 系统 (下 文 简称 为 FastBit 方案 ) 进 行 处 理性 能 
和 查询 性 能 的 测试 ,使 用 TraceA 和 Q1、Q2 两 个 查询 集 , 得 到 结果 如 图 3. 19 和 图 3. 20 
所 示 。 
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5000 
4900 
4800 
4700 
4600 
4500 
4400 
4300 


m 处 理 时 间 ( 单 位 : 秒 ) 


TM FastBit 
图 3. 19 FastBit 方案 与 TM 存储 性 能 对 比 


在 存储 性 能 方面 ,FastBit 方案 比 TM AIk 10% :同时 TM 由 于 超出 了 处 理 速 度 造成 
了 一 些 索引 的 丢弃 ,而 FastBit 对 每 个 包 都 建立 了 一 条 索引 。 使 用 FastBit 作为 存储 网 包 
索引 的 数据 库 并 且 采 用 批量 存储 的 方案 在 存储 性 能 方面 表现 出 较 高 效率 。 

在 查询 性 能 方面 ,FastBit 也 展现 了 较 高 的 效率 。 对 于 查询 集 QI 和 Q2. FastBit 方案 
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— TIMQI 
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— TM Q2 
>e FastBit Q2 
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查询 耗 时 (单位 : 秒 ) 


0.01 


1 i 2 ' 3 ' 4 ' 5 6 7 ! 8 ! 9 10 
查询 编号 
图 3.20 FastBit 方案 与 TM 查询 性 能 对 比 


的 查询 速度 均 比 TM 要 快 。 需 要 注意 的 是 在 QI 和 Q2 查询 集 的 第 9 个 查询 点 上 ,表现 了 
一 些 与 其 他 点 相 异 的 特征 。Q1 查询 集 得 第 9 个 点 相 比 其 他 点 所 花 时 间 高 出 许多 ,这 是 因 
为 这 个 点 匹配 的 查询 结果 比较 大 ,最 后 生成 的 查询 结果 约 23MB, 因 此 花费 时 间 较 多 。 在 
Q2 查询 集中 ,第 9 个 点 在 处 理 上 由 于 输入 数据 的 失误 ,在 流 文件 中 并 不 存在 匹配 的 记录 ， 
这 是 TM th FastBit 方案 快 的 原因 ,是 因为 TM 的 索引 记录 的 是 一 个 流 的 活跃 信息 。 如 
果 TM 在 查询 条 件 中 指定 的 时 间 段 里 不 存在 这 个 流 的 记录 ,就 不 会 再 进行 进一步 的 

通过 测试 结果 可 以 发 现 ,使 用 位 图 索引 数据 库存 储 网 包 的 索引 信息 无 论 在 处 理 时间 
上 还 是 在 查询 性 能 方面 都 有 较 高 的 效率 。 


3.3.4 TIFAflow 系统 Ps09 


TIFAflow 基于 TM 实现 的 网 包 信息 记录 ,网 络 流 表 维 护 和 网 络 流量 采集 及 存储 的 
相关 模块 ,并 重新 设计 了 TM 系统 的 索引 部 分 。 索 引 设计 为 记录 网 包 在 网 流 文件 中 的 偏 
移 量 ,查询 时 根据 索引 将 网 包 从 文件 中 的 特定 位 置 提取 出 来 。 通 过 实验 对 比 了 利用 通用 
关系 数据 库 和 利用 位 图 索引 数据 库 来 存储 索引 信息 两 种 方案 的 性 能 ,证 明了 后 者 较 前 者 
更 适合 存储 索引 数据 。 接 着 ,为 了 进一步 优化 系统 的 存储 和 查询 效率 ,本 节 提 出 了 流 级 的 
存储 和 索引 设计 及 实现 方案 ,并 利用 FastBitc3 这 一 位 图 索引 数据 库存 储 素 引信 息 。 实 
验证 明 , 基 于 流 的 改进 方案 ,在 存储 和 查询 两 个 方面 都 具有 更 优秀 的 性 能 。 

1. 设计 目标 

TIFAflow 系统 的 设计 目标 如 表 3.6 所 示 。 


(80): 互联 网 流量 大 数据 工程 


表 3.6 TIFAflow 系统 的 设计 目标 


系统 名 称 流 级 网 流 归 档 查询 系统 
功能 简 述 对 网 络 中 的 流量 进行 采集 ,存储 ,并 提供 方便 快速 的 查询 接口 
硬件 平台 通用 x86 架构 的 多 核 处 理 平台 
软件 平台 UNIX/Linux 系统 
性 能 指标 在 100Mbps 一 1Gbps 满 负 载 网 络 下 能 实现 系统 功能 并 保存 数据 30 天 
系统 输入 可 以 监听 存在 的 网 卡 , 也 可 以 从 流量 文件 批量 读 取 
系统 输出 将 捕获 的 网 包 归 档 存储 为 一 定 大 小 的 流量 文件 
查询 输入 输入 为 网 流 的 五 元 组 信息 和 时 间 区 间 ,以 及 查询 结果 的 文件 名 
查询 输出 输出 为 匹配 输入 条 件 的 所 有 网 包 聚 合成 的 流量 文件 
2. 系统 架构 
本 节 针 对 表 3.6 中 的 设计 目标 ,参考 TM 系统 ,对 系统 采用 采取 功能 专 一 化 的 设计 ， 
提出 了 系统 的 架构 和 各 个 模块 的 设计 。 
1) 系统 架构 图 


TIFAflow 系统 架构 如 图 3. 21 所 示 , 系统 分 为 两 个 部 分 ,分 别 实现 网 包 的 存储 索引 
和 查询 的 功能 。 在 现在 的 设计 中 ,这 两 个 功能 相互 独立 ,并 且 每 个 功能 都 是 以 单线 程 的 方 
式 实现 。 且 每 一 个 功能 在 设计 上 都 力图 最 简化 ,这 样 可 以 使 得 系统 各 个 模块 的 处 理 效率 


更 好 把 握 。 
维护 
EMI Ed E ^ 
Sl 索引 模块 H 


图 3.21 TIFAflow 系统 架构 
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从 系统 架构 图 中 可 以 看 到 ,系统 的 主要 模块 有 采集 模块 ` 流 表 维 护 模 块 . 索 引 模块 和 
查询 模块 。 在 下 面 两 个 小 节 将 说 明 各 个 模块 的 作用 和 对 外 接口 。 

在 以 后 的 工作 中 ,这 两 个 部 分 会 在 以 后 的 工作 中 合并 在 一 个 进程 中 以 不 同 线程 的 方 
式 实 现 。 同 时 在 以 后 的 工作 中 ,查询 模块 应 支持 并 行 的 查询 ,存储 和 索引 模块 也 将 采用 多 
线程 的 方案 ,加 速 处 理 效率 。 

2) 模块 说 明 

(1) 采集 模块 。 

采集 模块 控制 整个 系统 的 输入 ,根据 用 户 输入 的 参数 ,判断 是 从 网 卡 上 读 取 网 包 , 还 
是 从 流量 文件 中 读 取 网 包 。 采 集 模 块 每 收 到 一 个 网 包 ,将 网 包 交 给 流 表 进行 处 理 , 流 表 更 
新 完 信息 后 ,采集 模块 会 根据 流 表 模 块 处 理 的 结果 ,决定 是 否 将 网 包 交 给 流 索 引 模块 进行 
处 理 : 如 果 流 表 返 回 的 信息 是 此 网 包 应 该 被 舍弃 , 则 抛弃 此 网 包 ; 和 否则 ,将 网 包 传递 给 流 
索引 模块 。 

(2) 流 表 维护 模块 。 

流 表 维护 模块 维护 了 当前 网 络 中 的 所 有 流 信息 ,一 个 网 包 到 来 时 ,首先 查 其 对 应 的 网 
流 是 否 在 流 表 中 有 记录 ,如 果 没 有 记录 , 则 在 流 表 中 新 建 一 条 。 该 记录 中 记录 了 流 的 特征 
和 一 些 统计 信息 ,如 已 经 处 理 过 的 总 字 节 数 , 流 开始 时 间 和 属于 该 流 的 最 后 一 个 网 包 的 到 
来 时 间 。 流 表 所 占用 的 内 存 大 小 应 该 保持 在 一 定 范围 之 内 ,因此 流 表 需 要 定时 删除 一 些 
过 期 流 的 记录 ,以 保证 流 表 不 至 于 太 大 。 

(3) 索引 模块 。 

索引 模块 将 到 来 的 包 保存 到 一 个 流量 文件 中 ,同时 记录 下 该 包 的 索引 信息 。 索 引 模 
块 要 维护 所 有 的 流量 文件 ,控制 每 个 流量 文件 的 大 小 。 当 某 个 流量 文件 超过 预先 设 定 的 
大 小 时 ,新 建 一 个 文件 进行 写 人 操作 。 

(4) 查询 模块 。 

查询 模块 负责 解析 用 户 的 查询 请 求 。 将 用 户 的 查询 请 求 转化 成 自己 的 查询 数据 结 
构 , 再 将 此 数据 交付 给 索引 查询 引擎 ,索引 查询 引擎 在 已 经 建立 的 索引 记录 中 搜索 出 相关 
的 索引 记录 ,查询 模块 利用 这 些 索 引 记录 中 的 信息 从 相应 流量 文件 中 查找 和 抽取 相应 的 
网 包 ,并 汇聚 成 一 个 文件 返回 给 用 户 。 

3. 网 流 获取 与 存储 

1) 网 包 获 取 

Libpcap 库 是 UNIX/Linux 下 的 一 个 C 语 言 函 数 库 。 该 函数 库 提供 了 捕获 和 处 理 包 
的 一 些 函 数 。Libpcap 被 广泛 应 用 于 各 类 网 络 监控 和 分 析 软 件 中 。 

Libpcap 中 的 一 个 包 的 描述 使 用 struct pcap_pkthdr 进行 描述 ,该 结构 定义 如 表 3.7 
所 示 。 
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表 3.7 Libpcap 库 中 的 struct pcap_pkthdr 定义 


类 型 名 struct pcappkthdr 
struct timeval ts; // 包 的 时 间 截 
变量 bpf_u_int32 caplen; // 捕 获 的 包 长 
bpf_u_int32 len; // 网 包 实 际 长 度 


对 每 一 个 捕获 的 包 ,libpcap 函数 库 会 给 出 一 个 网 包 的 描述 和 指向 包头 的 指针 。 

2) Libpcap 网 包 获取 方式 

Libpcap 库 根据 用 户 在 运行 前 输入 的 参数 ,提供 3 种 方式 的 网 包 读 取 。 第 一 种 是 直 
接 从 网 卡 抓 包 , 第 二 种 是 从 某 个 网 流 文件 中 读 取 网 包 , 第 3 种 是 从 一 组 网 流 文件 中 读 取 
网 包 。 

从 网 卡 抓 包 需 要 用 户 指定 监听 的 网 络 设备 ,利用 pcap_open_live 函数 接口 打开 相应 
的 包 捕 获 对 象 。 从 某 个 网 流 文件 中 读 取 包 取 要 用 户 指 网 流 文件 的 文件 名 ,利用 pcap_ 
open_offline 获取 相应 的 包 捕 获 对 象 。 从 一 组 网 流 文件 中 读 取 网 包 时 ,需要 用 户 指定 一 个 
文件 ,该 文件 中 每 一 行 是 一 个 网 流 文件 的 文件 名 ,程序 将 连续 地 遍历 这 些 文件 中 的 网 包 。 

4. 流 级 别 的 存储 和 索引 

1) 系统 瓶颈 分 析 

使 用 位 图 索引 数据 库 ,使 得 索引 的 建立 和 查找 时 间 都 大 大 减少 ,但 是 产生 的 索引 文件 
大 小 相对 较 大 ,不 能 忽视 。 在 前 文 所 述 的 方案 下 ,每 一 个 网 包 都 会 生成 一 条 索引 ,不 经 压 
缩 ,一 条 索引 占 空 间 32b ,假设 平 均 包 长 为 300b, 则 索引 产生 的 附加 存储 消耗 是 1076 AE 
右 。 另 一 方面 ,每 一 个 网 包产 生 一 个 索引 的 方案 使 得 索引 的 数目 与 网 包 数 相等 ,对 这 些 索 
引进 行 储存 和 查找 是 系统 的 瓶颈 所 在 。 如 果 能 减少 索引 条 目的 数量 ,将 同时 减 小 建立 索 
引 和 查找 时 消耗 的 时 间 ,提高 系统 的 处 理性 能 。 

2) 流 级 别 的 存储 

如 果 要 减少 索引 数量 , 却 又 不 想 在 提取 满足 搜索 条 件 的 网 包 时 ,丧失 已 有 设计 带 来 的 
高 效率 ,就 必须 利用 更 少 的 索引 条 数 存 储 同 样 多 的 位 置信 息 。 多 条 索引 的 信息 想 要 概括 
在 一 条 索引 中 ,就 必须 将 信息 以 另 一 种 方式 保存 。 一 个 好 的 想法 是 让 一 个 流 中 的 包 在 空 
间 上 存储 在 一 起 ,这 样 减 小 索引 条 数 后 ,那些 被 放弃 的 索引 的 信息 蕴藏 在 了 网 包 的 相对 位 
置信 息 中 。 一 个 流 存储 在 一 起 ,使 用 一 条 索引 标记 这 个 流 在 所 处 的 文件 位 置 , 可 以 很 方便 
地 对 一 个 流 中 的 数据 进行 遍历 ,并 不 会 降低 系统 的 性 能 。 同 时 人 们 可 以 做 如 下 计算 : 若 
一 个 流 包 含 n 个 包 , 则 条 记录 需要 被 索引 ;采用 流 级 别 的 存储 ,这 个 网 包 只 会 产生 一 
条 索引 。 这 样 将 大 大 减少 所 要 存储 的 索引 条 数 , 使 得 数据 库 的 负担 更 轻 。 因 此 ,采用 流 存 
储 的 方案 ,会 加 快 系统 处 理 网 包 建 立 索引 的 处 理 效率 ,降低 索引 存储 带 来 的 空间 消耗 。 


3) 实现 方案 

要 实现 流 级 别 的 存储 ,需要 将 属于 同一 个 流 的 网 包 汇聚 在 一 起 ,一 并 存 人 文件 。 采 用 
的 方法 是 在 内 存 中 利用 缓存 的 方法 ,将 数据 一 个 流 的 网 包 存在 一 起 。 利 用 已 有 的 流 表 ,在 
存储 流 信 息 的 Connection 对 象 中 新 增 一 个 链表 ,链表 中 的 每 一 个 节点 都 是 一 个 网 包 。 

具体 流程 如 下 : 存储 时 ,系统 捕获 一 个 网 包 后 并 不 马上 将 该 网 包 存 人 网 流 文 件 并 生 
成 索引 ,而 是 将 其 添加 到 对 应 的 流 信息 中 网 包 链 表 的 尾 端 (超过 截 短 界限 则 丢弃 ) 。 当 系 
统 清除 流 表 中 的 超时 流 信息 时 ,再 将 要 清除 的 流 信 息 中 的 网 包 链 表 中 的 所 有 网 包 顺 序 存 
A pcap 文件 ,并 生成 一 条 索引 , 放 人 数据 库 中 。 

索引 格式 与 第 5 章 所 提 方 案 的 格式 相似 ,仅仅 需要 把 时 间 蕉 time 改 成 时 间 区 间 time 
_start 与 time end, 并 加 入 一 列 flowlen, 分 别 表示 流 的 开始 时 间 与 结束 时 间 以 及 pcap XC 
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件 中 该 流 所 占 字 节 数 。 改 动 后 的 索引 格式 定义 如 表 3. 8 所 示 。 


表 3.8 流 级 别 方案 的 索引 格式 


域 类 型 说 明 
sipl byte 源 IP 地 址 的 第 一 个 字 节 
sip2 byte 源 IP 地 址 的 第 二 个 字 节 
sip3 byte 源 IP 地 址 的 第 三 个 字 节 
sip4 byte 源 IP 地 址 的 第 四 个 字 节 
dipl byte 目标 IP 地 址 的 第 一 个 字 节 
dip2 byte 目标 IP 地 址 的 第 二 个 字 节 
dip3 byte 目标 IP 地 址 的 第 三 个 字 节 
dip4 byte 目标 IP 地 址 的 第 四 个 字 节 
sport short 源 端口 
dport short 目标 端口 
time_start double Dae FF t B [8] BK 
time_end double 流 结束 时 间 
fileno int peap 文件 编号 
offset int 包 在 pcap 文件 中 的 偏 移 量 
flowlen int 流 在 文件 中 所 占 的 字 节 数 
protocol int 传输 层 协议 (TCP/UDP) 


查找 时 ,在 索引 中 查找 匹配 查找 目标 的 索引 ,得 到 相应 的 流 存储 的 文件 和 偏 移 量 以 及 
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所 占 字 节 数 。 在 相应 文件 位 置 把 整个 流 的 数据 读 出 。 

5. 系统 性 能 

同样 ,我们 测试 新 的 方案 完成 对 TraceA 的 存储 与 索引 需要 的 时 间 ,并 与 TM 所 需 时 
间 以 及 TIFA 的 Fastbit 索引 存储 方案 进行 对 比 , 得 到 图 3. 22。 从 图 3. 22 中 可 以 明显 地 


发 现 , 采 用 流 级 别 的 存储 方案 后 系统 的 性 能 大 大 提高 , 比 不 使 用 流 存 储 的 方案 提速 752s， 
约 16.6%。 


5500 


目 单 位 / 秒 
5000 


4500 


4000 


3500 


3000 1 1 j 
TM FastBit Flow 


图 3.22 3 种 方案 的 处 理 时 间 对 比 


对 比 3 种 方案 所 生成 的 索引 文件 占用 的 空间 可 得 图 3. 23。 可 以 看 出 ,使 用 流 级 别 的 
存储 和 索引 使 得 索引 大 小 降低 了 一 个 数量 级 。 


35 


索引 大 小 /单位 : GB 


L L 


TM FastBit Flow 
图 3.23 3 种 方案 所 生成 的 索引 大 小 比较 


可 以 看 出 ,使 用 流 级 别 的 存储 和 索引 方案 ,能 够 提高 系统 存储 和 建立 索引 的 效率 , 同 
时 大 大 降低 索引 的 占用 空间 。 

通过 流 存 储 的 方案 ,对 102GB 的 流 文件 的 处 理 时 间 下 降 到 了 3782s ,换算 成 链 路 速度 
约 为 215. 8Mbps。 本 次 实验 的 实际 网 包 数 据 来 自 于 磁盘 上 保存 的 抓 包 文件 ,假设 磁盘 的 


eo 
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读 取 速度 是 100MBps, 将 102GB 流 文件 读 入 内 存 累 积 需要 时 间 1,020s。 也 就 是 说 , 约 1/3 
的 处 理 时 间 用 在 磁盘 读 写 上 。 千 兆 网 络 环境 下 ,假定 网 卡 1/0 AMA, ILL SE Aio 
所 设计 的 系统 至 少 能 达到 300Mbps。 测 试 时 关闭 了 包 截 短 功能 ,因此 相当 于 对 全 部 网 包 
进行 处 理 。 在 实际 运行 时 ,如 开启 流 截 短 的 功能 ,按照 图 3. 10 和 图 3. 11 的 流 大 小 分 布 ， 
该 系统 工作 在 1Gbps 的 网 络 环境 下 ,并 保证 丢 包 率 在 一 定 水 平 之 下 ,是 完全 可 行 的 。 


3.3.5 NET-FLI 流 记录 压缩 与 查询 系统 


1. 流 记 录 的 属性 
NET-FLI 中 记录 的 每 条 流 的 具体 格式 如 图 3. 24 所 示 。 


Destination IP Destination Part Source Autonomous #Bytes exchanged flow start 
address | / System Number in the flow time 


| | 
SrclP. [SrePort] DsuP [DstPort | Proto | TCPflags| SroAs| DestAs| Octs | Pkts | Start | Dur 


/ N 
Layer 3 protocol  / Destination Autano- \ 


Source IP | (如 TCP、UDP) Cumulative TCP flags mous System Number sipackets 


address Source Port (如 SYN、ACK、FIN) exchanged in the flow 
图 3.24 流 记录 格式 


flow duration 


2. NET-FLI 架构 

NET-FLI 系统 中 主要 包括 2 个 逻辑 部 分 ,如 图 3. 25 所 示 。 

(1) archiving backend 存储 后 端 ,压缩 流 数 据 ( 图 中 D 部 分 ) 。 

(2) 压缩 索引 ,对 流 信息 使 用 COMPAX 压缩 (图 中 下 部 分 )。 

这 两 个 组 件 的 任务 在 on-the-fly 上 被 并 行 地 执行 ,这 是 我 们 解决 方案 高 性 能 的 原因 。 
还 有 一 个 额外 的 在 线 预 处 理 步骤 被 执行 ,使 用 OLSH 技术 对 流 进行 排列 ,目的 是 对 归档 
数据 和 数据 索引 实现 更 好 的 压缩 。 这 个 可 选 的 操作 可 能 在 一 定 程度 上 降低 了 流 处 理 的 速 
率 , 但 是 它 能 够 得 到 更 高 压缩 的 归档 数据 和 索引 ,最 后 的 响应 时 间 也 就 会 越 快 。 

系统 的 最 后 一 部 分 是 query processor( 查 询 处 理 器 ) ,给 定 一 个 搜索 查询 和 使 用 位 图 
索引 结构 ,通过 匹配 给 定 的 标准 确定 历史 流 ,通过 解压 缩 归档 数据 中 相关 的 部 分 来 恢复 
它们 。 

3. 流 数据 的 压缩 归档 


流 记录 中 可 以 含有 一 系列 的 属性 ,如 图 3. 24 所 示 , 到 来 的 流 记录 会 被 分 包 , 使 用 
4000 个 流 的 窗口 来 处 理 。 窗 口 的 大 小 并 不 是 随意 选择 的 , 它 能 反映 处 理 数据 的 数量 (12 
X4000) FF AA L2 缓存 相 适 应 。 该 篇 文章 的 作者 曾经 也 做 过 更 大 流 记录 块 的 实验 ,但 
发 现 这 并 不 明显 地 影响 压缩 速率 ,所 以 ,这 里 使 用 4000。 
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B. oLSH-based tuple reordering (optional) 


— 
A. Flow records p flows ag | C Flow column separation 
Srep [DstPort] DstiP = H T 
i1o20139| 21 i 


4000 
flows 
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manı | æ 7 
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s + " : 
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3.25 NET-FLI 架构 示意 图 


在 后 来 的 阶段 中 ,数据 都 被 看 成 columnar (一 栏 一 栏 ) 形 式 , 每 个 属性 都 代表 一 栏 , 这 
些 都 是 独立 处 理 的 ,每 栏 的 长 度 都 是 4000。 我 们 选择 LZO 压缩 器 ,压缩 后 的 数据 归档 在 
on-the-fly 上 创建 ,并 存储 在 disk 上 。 压 缩 后 的 块 存在 buffer 中 ,buffer 满 了 才 倾 倒 到 
disk 上 ,默认 buffer 大 小 为 4MB。 

这 部 分 任务 主要 有 分 包 、 重 新 排序 和 压缩 .是 在 一 个 CPU 系统 中 执行 的 。 

4. 索引 压缩 算法 COMPAX 十 oLSH 


该 系统 使 用 的 索引 压缩 算法 是 COMPAX 的 改进 版 一 -COMPAX 十 oLSH. 
COMPAX 在 本 章 的 第 2 节 中 有 介绍 ,其 中 oLSH 方法 (online-Locality-Sensitive- 
Hashing) 是 一 种 聚集 相似 流 记录 的 方法 。 该 改进 压缩 方式 同 COMPAX ,但 是 会 对 输入 
码 流 进行 事先 处 理 ,将 相近 的 包 放 在 相近 的 位 置 ,这 样 对 压缩 率 的 提高 非常 明显 。 

5. NET-FLI 查询 系统 

已 知 : W IP 为 10.4.0.0/16 ,目的 端口 为 137。 

查询 : 所 有 的 目的 IP. 
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NET-FLI 查询 过 程 示 意图 如 图 3. 26 所 示 。 
compressed index) Compressed bitmaps )) Join(fiterng) )) Data retrieval) 


SrclP1 Srcp:2 Port | position 
10 4 37 
BITMAP BITMAP BITMAP EE 


INDEX: — INDEX: INDEX: 
SrdP. Srclp DstPort 
Byte1 Byte 2 


I 

| 

| 
NE 
| ANDing 
| of bitmaps 
| 

| 

| 


Query: SELECT DstiP 
WHERE SrciP = 10.4.*.* AND DstPort = 137 


图 3.26 ”NET-FLI 查询 过 程 示意 图 """ 


步骤 如 下 。 

d) 找 出 压缩 index 中 的 3 个 columns( 源 IP 的 前 2 个 字 节 为 10、4, 目 的 端口 为 
137). 

(2) 将 3 个 columns 进行 与 操作 。 

(3) 连接 3 个 压缩 columns 的 结果 有 匹配 的 行 {200,10010,10500}。 

(4) 解压 ,还 原 出 目的 IP( 找 到 行 所 对 应 的 块 , 从 头 部 得 到 开始 位 置 ) 。 

(5) 返回 给 用 户 。 


3.3.6 Hyperion 


Hyperion[9 是 一 个 支持 存档 索引、 对 大 量 数据 流 进行 联机 查询 的 系统 。 采 用 一 个 
对 高 速 存储 数据 流 的 写 优化 流 文件 系统 ,并 采用 分 布 式 multi-level 的 索引 结构 。 
Hyperion 是 在 通用 硬件 上 进行 实现 ,StreamFS 文件 系统 每 秒 存储 百 万 个 包 , 在 处 理 on- 
line 请 求 的 同时 ,索引 和 存储 可 以 达到 每 秒 200 000 个 包 。 

网 络 监 测 一 般 分 为 两 种 ,一 种 是 实时 监测 , 即 实时 捕获 和 检查 包 , 在 检查 完 之 后 ,丢弃 
包 的 头 部 和 负载 ; 另 一 种 网 络 监测 系统 除了 需要 线 速 地 捕获 数据 ,还 要 有 存储 、 回 溯 查 询 
和 高 效 检索 数据 的 功能 。 如 今 ,对 存档 系统 一 般 有 两 种 可 选 方式 ,可 以 使 用 数据 库 , 也 可 
以 在 常规 文件 系统 上 自 定义 建立 索引 。 

像 GigaScope 和 MIND 使 用 SQL 接口 来 实现 网 络 数据 的 查询 。 一 个 检测 系统 必须 
在 高 速 情况 下 接受 新 的 数据 ,单个 gigabit link 每 秒 可 以 产生 成 千 上 万 个 包头 和 几 十 MB 
的 存储 数据 ,单个 检测 系统 可 以 记录 多 个 这 样 的 links。 用 常规 的 数据 库 系统 是 无 法 满足 
这 样 的 要 求 的 。MIND 是 基于 p2p 的 索引 , 仅 提 取 和 存储 flow level 的 信息 ,而 不 是 raw 
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packet header。GigaScope 是 一 个 流 数据 库 , 可 以 支持 实时 数据 的 请 求 , 但 数据 的 存储 并 
不 在 考虑 范围 之 内 ,它们 之 间 的 主要 区 别 如 表 3. 9 所 示 。 


表 3.9 主要 区 别 

Event rates | Archive Index,query | CommodityHW 
aie systems(GigaScope, Yes No No Yes 
Peer-to-peer systems (MIND, PIER) No Yes Yes Yes 
Conventional DBMS No Yes Yes Yes 
CoMo Yes Yes No Yes 
Proprietary systems * T Yes Yes No 


可 以 采用 通用 的 文件 系统 来 存储 捕获 的 包头 部 ,特别 是 日 志文 件 , 并 且 在 这 些 文件 上 
可 以 自 定 义 索引 进行 有 效 的 查询 。 但 是 通用 的 文件 系统 并 不 是 被 设计 用 来 网 络 监 测 的 ， 
所 以 吞吐 率 低 的 系统 可 能 不 适用 这 种 情况 。 

因为 需要 对 大 容量 的 数据 进行 存储 ,所 以 数据 库 和 常规 的 文件 系统 都 不 能 直接 地 解 
决 存储 上 的 问题 。 这 就 需要 一 个 工作 在 通用 硬件 上 的 新 存储 系统 ,主要 用 于 解决 大 容量 
存储 、 建 立 索 引 、 查 询 等 问题 。 下 面 将 从 流 文件 系统 (Stream File System) 和 分 布 式 索 引 
结构 两 部 分 介绍 Hyperion 系统 。 

1 流 文件 系统 


流 文件 系统 的 设计 需求 包括 以 下 要 点 。 

(1) 对 高 速 网 流 的 存储 不 能 有 信息 丢失 。 

(2) 对 整个 磁盘 的 重复 存储 使 用 。 

(3) 读 和 写 可 以 并 发 。 

在 流 文件 系统 中 ,数据 块 (block) 的 大 小 是 固定 的 ,其 中 包含 块头 (block header) 和 多 
个 记录 (records) ,块头 指定 了 该 块 属于 哪个 网 流 ,以 及 将 块 和 上 一 块 的 记录 分 离开 。 每 
个 记录 的 长 度 都 是 可 变 的 ,同一 个 块 中 的 记录 是 同属 于 一 个 流 , 记 录 头 部 (record header) 
中 包含 流 IDCstream ID) 和 记录 的 长 度 , 并 且 出 于 对 安全 性 的 考虑 ,在 记录 头 部 中 加 入 一 
个 自我 认证 的 机 制 , 即 在 记录 头 部 中 包含 一 个 头 文件 的 散 列 值 。 假 设 个 块 组 成 一 个 区 
Gone) ,那么 前 n 一 1 个 块 是 用 来 存储 记录 ,最 后 一 个 块 则 用 于 存储 数据 块 图 (block 
map) ,将 流 ID(stream ID) 和 各 个 数据 块 block 之 间 建 立 映 射 关系 。 而 流 文件 系统 Root 
就 像 一 个 总 目录 ,包含 所 有 的 流 (stream) 的 信息 ,存储 了 每 个 流 的 头 尾 指 针 和 大 小 。 具 体 
结构 如 图 3. 27 所 示 。 


为 了 能 达到 索引 每 个 链 路 上 每 秒 100 000 条 记录 的 速度 ,Hyperion 将 一 
多 个 区 间 interval, 给 这 些 区 间 interval 计算 一 个 或 多 个 签名 。 所 以 特征 索引 signature 
index 维护 的 不 是 stream 索引 ,而 是 区 间 interval 的 索引 。 
一 个 个 的 特征 signature。 


是 


2. 分 布 式 索 引 
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图 3.27 流 文件 系统 的 存储 结构 


互联 网 流量 档案 化 BO 


Hyperion monitor 需要 维护 一 个 可 以 高 效 回溯 查询 ,并 且 能 够 被 快速 建立 的 索引 。 


Hyperion 分 布 式 索引 方案 如 图 3. 28 所 示 。 
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索引 中 存储 的 不 在 是 数据 ,而 
只 有 在 特征 signature 完全 匹配 了 , 才 进 行 数据 的 恢复 。 
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3.28 Hyperion 分 布 式 索 引 方 案 
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Hyperion 采用 多 级 特征 索引 (multi-level signature index) ,这 里 使 用 2 层 签名 索引 
结构 ,第 一 层 是 每 个 区 间 interval 都 会 计算 得 到 特征 signature, 第 二 层 则 是 由 个 区 间 
intervals 计算 得 到 特征 signature。 每 次 先 查找 高 层 (第 二 层 ) 的 signature, 如 果 匹 配 ,说 
明 在 该 & 个 区 间 (intervals) 中 ,再 查找 levell 的 个 特征 (signatures) ;如果 没有 找到 匹 
配 , 就 说 明 在 这 上 个 特征 interval 中 是 没有 的 。 所 以 这 种 特征 索引 (signature index) 方 法 
不 会 出 现 漏 报 情况 ,但 会 出 现 误 报 ( 即 检查 的 interval 并 不 是 需要 找 的 interval). 

Hyperion 采用 的 是 分 布 式 索 引 结构 ,但 是 这 种 结构 很 容易 因为 对 查询 请 求 的 回答 而 
造成 查询 洪 泛 (query flooding)。 在 Hyperion 中 每 个 节点 本 地 存储 自己 的 索引 信息 ,其 
中 每 个 节点 的 汇总 summary 索引 (top level 的 索引 信息 ) 也 是 需要 生成 的 ,这 里 在 某 个 时 
间 段 里 指定 一 个 节点 A, 让 其 他 节点 把 top level 的 索引 信息 发 送 给 节点 A, 由 节点 AK 
做 匹配 ,最 后 在 与 自己 匹配 中 查找 。 


3.4 处 理 平台 展望 


3.4.1 多 核 处 理 平台 57] 


多 核 系 统 是 计算 机 处 理 器 的 一 个 主流 形式 ,但 是 ,内 核 网 络 层 并 没有 被 完全 利用 ,这 
是 因为 存在 的 老 旧 代码 RX 队列 的 资源 竞争 以 及 OS 系统 之 间 不 必要 的 副本 ,这 就 导致 
了 包 捕 获 在 适应 多 核 架构 时 可 能 会 出 现 性 能 低下 。 

现代 的 多 核 网 络 适配器 被 逻辑 上 分 成 了 几 个 RX/TX 队列 ,并 使 用 RSS 的 方式 平衡 
流 , 队 列 的 个 数 是 依赖 于 网 卡 的 芯片 设置 和 可 用 的 系统 cores( 比 如 4 核 的 只 能 有 4 个 队 
列 per port) 。 但 由 于 大 多 数 的 OS 都 是 使 用 pre-multi-core 时 设计 的 包 轮 询 机 制 ,当时 的 
网 络 适配器 是 只 有 一 个 单独 的 RX 队列 。 即 使 现今 的 机 制 可 以 并 行 多 个 线程 ,但 由 于 还 
是 对 一 个 资源 进行 竞争 ,所 以 没有 发 挥 出 并 行 多 核 架 构 的 优势 。 

多 核 处 理 平台 示意 图 如 图 3. 29 所 示 。 


3.4.2 GPU AK 


这 里 简单 介绍 一 种 新 方法 ,就 是 利用 GPU 来 处 理 对 数据 索引 ,达到 解放 CPU 的 
目的 。 

从 图 3. 30 上 很 容易 看 出 数据 从 CPU 上 复制 到 GPU.GPU 上 通过 一 些 列 的 处 理 生 
成 metadata 返回 到 CPU 上 ,metadata 由 2 个 parallel array 组 成 ,keys 和 offsets,keys 是 
分 类 和 存储 m 个 不 同 的 keys(z 代表 出 入 的 数据 不 同 值 的 个 数 ) ,offsets 是 给 每 个 key 存 
fii TE index 中 的 偏 移 量 。 
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图 3.30 GPU 处 理 数据 索引 示意 图 


3.5 小 结 


本 章 介绍 了 通用 网 络 流量 归档 与 查询 系统 中 的 基础 知识 和 网 包 处 理 过 程 中 的 相关 基 
础 知识 ,以 及 线 速 处 理 的 相应 技术 手段 ,主要 包括 网 包 获 取 的 Linux 内 核 NAPI 技术 、 
libpcap 库 ,netmap 高 速 网 包 处 理 框 架 、PF_RING、 网 流 获取 与 处 理 的 scap 库 。 同 时 , 介 
绍 了 网 包 的 索引 压缩 算法 ,包括 WAH、PLWAH 和 COMPAX 算法 等 关键 技术 。 接 着 ， 
介绍 了 单 点 的 网 流 归 档 与 查询 系统 的 具体 实现 ,包括 基于 MySQL 关系 型 数据 库 的 存储 
查询 .TM 存储 与 查询 系统 实现 、TIFA 系统 实现 .TIFAflow 系统 实现 和 NET-FLi 系统 
实现 。 最 后 ,介绍 了 面向 网 流 归 档 与 查询 系统 应 用 的 通用 多 核 multi-core 平台 与 GPU 平 
台 方 案 。 
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4.1 流量 大 数据 -移动 互联 网 增长 背景 
据 中 国联 通 内 部 统计 ,在 过 去 5 年 中 移动 用 户 流量 的 复合 增长 率 为 135% ,3G 月 均 
流量 增长 最 高 ,其 中 以 iPhone 用 户 尤 其 突出 ,如 图 4.1 一 图 4.4 所 示 。 
(0 China Unicom’s mobile Internet traffic(10GB) 
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图 4.1 中 国联 通 移动 互联 网 流量 


流量 增长 原因 如 下 。 

CD 联通 3G 无 线 网 络 的 普及 。 

随 着 移动 通信 网络 的 发 展 ,移动 设备 能 够 随时 随地 访问 任何 内 容 。 移 动 访问 速度 从 
原来 的 几 百 KB 上 升 到 MB, 未 来 4G、5G 时 代 的 移动 访问 速度 或 将 达 至 百 MB. 
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图 4.2 移动 户 均 移动 3G 流量 (2012 一 2013) 
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图 4.3 流量 类 型 分 布 (视频 、 网 页 、 语 音 等 ) 图 4.4 即时 通信 流量 分 布 


(2) 终端 设备 能 力 提高 。 
随 着 移动 设备 终端 的 快速 发 展 ,iPhone 处 理 器 从 32 位 架构 进化 到 当前 iPhone 5S 版 
本 的 64 位 架构 , 仅 用 了 6 年 的 时 间 (2007 一 2013) 。 而 在 桌面 计算 上 ,Intel 处 理 器 从 32 
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位 到 64 位 的 发 展 整整 持续 了 20 年 (1985 一 2004) 。 手 机 的 存储 容量 也 随 着 存储 设备 的 价 
格 降低 而 不 断 增加 。 

(3) 丰富 的 互联 网 内 容 向 移动 互联 网 转移 。 

近年 来 ,移动 互联 网 的 内 容 愈 加 丰富 ,手机 游戏 ,手机 视频 等 呈现 爆炸 式 增长 。 目 前 
移动 互联 网 最 活跃 的 应 用 是 移动 游戏 。 

按照 IDG Gartner 的 定义 ,大 数据 符合 4 个 特征 , 即 数 据 体 量 巨大 (Volume) 数据 类 
型 繁多 (Variety) 、 价 值 密度 低 C(Value)、 处 理 速度 快 (Velocity)。 随 着 移动 互联 网 大 幕 的 
开启 ,传统 移动 运营 商 的 商业 模型 也 在 不 断 革新 ,运营 商 的 流量 大 数据 经 营 时 代 已 经 
到 来 。 


4.2 流量 大 数据 -采集 、 获 取 与 归 集 


第 3 章 详 细 介绍 了 流量 采集 的 基本 技术 ,以 及 流量 归档 查询 系统 的 设计 和 实现 。 在 
TM 技术 基础 上 ,我 们 开发 了 TIFAflow 流量 归档 查询 系统 53 和 TIFA 归档 查询 系 
HO , TIFAflow 系统 部 署 在 多 个 站 点 ,是 CNSMS 协同 安全 防护 体系 中 的 重要 组 成 部 分 。 
网 络 流量 的 采集 取证 分 析 , 在 Botnet 网 络 压制 中 中、 反 垃 圾 邮件 和 钓鱼 攻击 等 网 络 欺 
诈 59 中 ,具有 重要 的 作用 。 同 时 ,也 可 以 通过 流量 管理 设备 ,对 网 络 进行 实时 管控 。 

中 国联 通 总 部 维护 着 所 有 移动 互联 网 用 户 的 CDR(Call Data Record or Charge Data 
Record) ,每 天 维护 的 CDR 高 达 800 亿 条 。 在 每 个 省 的 移动 互联 网 出 口 设 备 GGSN 的 
Gn 点 都 部 署 有 DPI 采集 设备 ,全 国有 大 约 100 多 个 GGSN 的 采集 点 ,DPI 采集 设备 采集 
所 有 的 IP 数据 包 , 并 进行 适当 的 合并 。 合 并 的 原则 是 既 不 能 丢失 有 效 的 用 户 行为 数据 信 
息 ,又 要 讲究 合并 的 效率 ,以 减少 无 效 的 数据 量 。 生 成 的 每 个 文件 都 小 于 200MB ,而 这 样 
的 一 个 文件 在 5min 内 即 可 生成 。 每 200MB 文件 中 包含 的 记录 大 约 有 70 万 条 ,如 图 4.5 
所 示 。 

获取 的 流量 数据 包括 如 下 。 

CD 用 户 访问 了 什么 样 的 内 容 和 服务 。 

(2) 移动 终端 的 分 布 。 

(3) 移动 人 群 的 位 置信 息 和 人 流 分 布 状况 。 

(4) 用 户 偏好 。 

图 4.5 显示 了 运营 商 流 量 大 数据 的 采集 与 检测 系统 ,其 中 SGSN 和 GGSN 对 流量 进 
行 分 光 映 像 ,进行 流量 记录 流量 档案 系统 (traffic archival system) 。 

图 4.6 是 联通 大 数据 平台 的 主体 架构 ,该 平台 从 2009 年 10 月 上 线 , 每 月 记录 超过 2 
万 亿 条 (2X1023 ) ,每 月 数据 量 超过 525TB, 数 据 总 量 已 达 5PB。 整 体 入 库 速度 达到 139 
万 条 / 秒 ,万 亿 条 记录 规模 的 大 表 中 记录 检索 时 间 小 于 100ms。 
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图 4.5 数据 采集 与 检测 系统 
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图 4.6 联通 大 数据 分 析 与 挖掘 平台 


采集 部 分 支持 所 有 的 业务 类 型 解析 ,统一 按照 集中 化 上 网 记录 查询 及 分 析 系 统 的 私 
有 协议 封装 后 进行 传输 ,各 个 字段 之 间 以 竖 线 (|) 作 为 分 隔 符 。 文 件 生成 周期 为 5min( 默 
认 值 ,可 以 设置 ) ,单个 文件 大 小 设置 为 200MB, 在 两 个 指标 同时 设置 时 ,单一 指标 到 达 阔 
值 则 结束 文件 。 每 个 时 间 周 期 内 ,文件 大 小 超过 设 定 的 大 小 阅 值 , 则 保存 多 个 文件 ,同一 
周期 内 的 文件 通过 [nnnnnj 序 号 区 分 。 具 体格 式 见 附录 A。 
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文件 通过 FTP 上 传 到 北京 的 24 台 FTP 服务 器 ,规模 较 小 的 省 ,两 个 省 共用 一 台 
FTP 服务 器 ,有 些 大 省 则 需要 两 台 FTP 服务 器 。 为 了 减少 传输 的 带宽 ,这 些 文件 从 省 里 
上 传 到 北京 时 都 采用 了 bzip2 压缩 算法 进行 了 压缩 。 位 于 FTP 服务 器 集群 上 运行 着 入 
库 程 序 , 读 取 通 过 省 内 FTP 上 传 的 文件 ,经 过 解压 缩 后 ,通过 HBase 提供 的 Native Java 
API Ę A HBase 数据 库 , HBase 数据 库 按 月 生成 一 张 上 网 记录 表 , 该 表 以 用 户 的 手机 号 
码 作为 ROW KEY ,用 户 通 过 手机 号 码 可 以 快速 地 检索 自己 的 上 网 记录 。 


4.3 流量 大 数据 -平台 架构 及 系统 实现 


4.3.1 Hadoop 集群 


目前 ,联通 大 数据 平台 中 集群 可 用 存储 是 1. 9PB, 已 使 用 存储 是 1. 43PB, 存 储 使 用 率 
H 74. 196, 2013 年 9 月 底 使 用 存储 1. 63PB, 使 用 率 达 到 85% 左 右 。 包 括 如 下 。 

(1) 集群 规划 188 个 节点 ,目前 实际 使 用 169 个 节点 (10 个 管理 节点 十 159 个 数据 节 

(2) NameNode 3 台 , 采 用 HA 部署。 硬件 配置 为 每 台 两 个 4 核 CPU,96GB 内 存 。 
NameNode 和 jobtracker 部 署 在 同一 台 服 务 器 。 另 有 SecondaryNameNode 和 Standby 
NamNnode。 

(3) Zookeeper 和 HMaster 7 台 ,硬件 为 每 台 2 个 四 核 CPU,24GB 内 存 。 每 台 机 器 
上 部 署 Zookeeper 服务 和 HMaster 服务 。 为 HDFS 和 HBase 服务 。 

(4) 数据 节点 159 台 , 为 2 个 四 核 CPU, 48GB 内 存 。 部 署 启动 了 datanode、 
regionserver 和 tasktracker 服务 。 数 据 节点 为 14 块 1TB 硬盘 ,做 了 14 个 raid 0 , 挂 载 到 
系统 中 。 每 个 节点 实际 可 用 存储 12TB。 

剩余 服务 器 ,作为 分 析 集 群 使 用 。 当 负载 过 高 时 ,这 些 服务 器 也 可 以 加 入 到 大 的 生产 
集群 中 。 

HDFS 内 部 的 块 选取 策略 的 基本 思想 很 简单 ,在 每 一 个 DFSClient 以 及 DataNode 处 
维护 一 个 可 达 的 DataNode 列表 ,每 次 访问 某 个 DataNode 后 记录 访问 的 延 时 ,如 图 4.7 
所 示 。 这 些 信 息 汇报 给 NameNode。 这 有 点 像 OSPF 路 由 算法 ,每 一 个 路 由 器 维护 一 个 
邻接 图 ,图 中 每 一 条 边 都 有 访问 延 时 信息 。 

客户 端 DFSClient 在 选择 数据 块 进行 访问 时 ,首先 问 NameNode 哪些 DataNode 有 
这 个 数据 块 (block)。NameNode 会 根据 已 有 的 延 时 信息 返回 DataNode 的 列表 ,按照 延 
时 排序 ,访问 速度 最 快 的 DataNode 排 在 最 前 面 。DFSClient 收 到 DataNode 列表 后 ,如果 
本 地 有 延 时 信息 记录 , 则 使 用 本 地 信息 找到 访问 最 快 的 DataNode, 否则 就 按照 
NameNode 给 的 DataNode 列表 ,去 访问 第 一 个 DataNode。 
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图 4.7 用 于 大 数据 存储 的 Hadoop 集群 


4.3.2 HBase 集群 


上 网 日 志 详 单 系统 的 HBase 集群 规模 达到 了 188 台 机 器 , 裸 容量 达到 2. 5PB, 有 效 
容量 达 1. 25PB, 是 目前 所 知 电信 业内 规模 最 大 的 HBase 集群 ,每 天 可 以 处 理 数 十 TB 级 
别 的 数据 量 。 相 对 而 言 ,根据 公开 资料 ,Facebook 的 单个 HBase 集群 为 100 台 服 务 器 , 淘 
宝 的 HBase 集群 有 10 个 , 共 300 台 服 务 器 。 
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HBase 大 规模 分 布 式 系统 的 主要 技术 难点 如 下 。 
1. 高 并 发 数据 导 人 


联通 全 国 范围 的 实时 上 网 记录 需要 在 短 时 间 内 导入 到 系统 中 ,要 求 系统 的 峰值 处 理 
能 力 在 每 秒 100 万 条 上 网 记录 以 上 。 为 了 达到 如 此 高 的 性 能 ,同时 又 需要 允许 客服 人 员 
和 用 户 能 够 快速 查询 和 检索 数据 ,采用 了 下 列 三 项 新 技术 。 

(1) 采用 新 型 数据 库 设计 思想 中 的 多 版 本 并 发 控制 (MVCC) 数 据 处 理 模 型 ,每 插入 
一 份 数据 就 形成 一 个 新 的 版 本 (时 间 戳 ) ,并 且 与 读数 据 的 操作 分 离 。 允 许 高 并 发 的 用 户 
同时 访问 和 插入 (修改 ) 数 据 。 

(2) 现代 硬盘 的 IOPS( 每 秒 1/O 次 数 ,通常 为 1 一 100IOPS) 较 低 , 但 是 磁盘 带宽 (每 
秒 传输 数据 量 ) 相 对 富余 (100MB/s 左右 )。 为 解决 传统 数据 库 由 于 建立 B 十 树 索引 导入 
数据 越 多 性 能 越 慢 的 问题 ,需要 避免 频繁 进行 1/O 操作 。 在 实现 HBase 系统 时 ,首先 用 
顺序 磁盘 写 代替 随机 写 来 创建 数据 和 索引 ,对 数据 块 进行 高 效 的 合并 操作 ;其 次 ,为 了 减 
少 合并 操作 对 性 能 的 影响 ,对 上 网 记录 这 种 不 需 修改 且 随 时 间 单 调 增加 的 数据 ,采用 全 新 
的 合并 策略 ,对 数据 块 不 进行 全 部 合并 ,而 是 按照 时 间 序 合并 成 多 个 稍 大 的 文件 ,并 且 设 
计 全 新 的 索引 和 过 滤 条 件 ,在 大 幅 减 少 了 磁盘 操作 的 同时 ,实现 了 数据 的 高 速 检 索 。 

(3) 实现 了 高 级 负载 均衡 策略 。HBase 起 初 主 要 为 互联 网 应 用 设计 ,通常 只 有 一 张 
大 表 , 数 据 的 分 布 和 负载 均衡 策略 均 通 过 一 张大 表 进 行 设 计 优 化 。 而 电信 话 单 和 上 网 记 
录 通 常 需要 按照 计 费 月 分 表 。 在 直接 使 用 HBase 时 ,在 每 个 月 月 初时 数据 导入 速度 和 查 
询 速度 非常 慢 。 对 HBase 的 Master 均衡 算法 调整 (根据 大 表 数 量 、 分 区 数量 、 数 据 局 部 
性 ) 后 ,性 能 得 到 极 大 提升 。 图 4. 8 是 在 测试 集群 8 台 服 务 器 时 的 测试 结果 。 
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2. 高 效 的 数据 检索 能 力 


为 了 支持 对 用 户 上 网 记录 的 高 速 统计 (包括 Group-By JR & HEF JOIN 合并 等 ) ,在 
HBase 上 未 采用 MapReduce 而 是 设计 了 全 新 的 SQL 执行 引擎 ,有 效 地 降低 了 统计 延 时 。 
在 统计 一 个 用 户 在 一 个 月 内 按 天 统计 的 上 网 上 下 行 流量 时 ,返回 结果 在 100ms 以 内 。 

新 的 SQL 执行 引擎 采用 分 布 式 计算 和 分 层 聚 合 方法 ,充分 利用 磁盘 和 网 络 的 带宽 ， 
可 以 最 大 限度 发 挥 集群 性 能 。 

此 外 ,为 了 支持 按照 任意 字段 对 记录 进行 检索 ,设计 实现 了 增 量 式 的 全 文 索引 功能 ， 
并 且 支 持 准 实时 查询 。 上 网 记录 导入 HBase 库 中 ,随即 就 能 够 进行 关键 字 和 条 件 搜 索 ， 
避免 了 以 前 的 全 文 索引 和 搜索 技术 需要 定期 重建 索引 的 问题 。 


3. 系统 可 扩展 性 


大 规模 分 布 式 系 统 的 最 重要 的 要 求 之 一 是 可 扩展 性 ,能 够 扩展 到 数 百 至 数 千 个 节点 。 
在 联通 上 网 记录 存储 和 查询 系统 中 ,上 网 记录 的 量 在 3 一 6 个 月 内 会 翻番 ,因此 可 扩展 性 
是 一 个 硬性 要 求 。 

为 了 达到 高 可 扩展 性 ,在 系统 设计 时 ,不 得 使 用 分 布 式 事务 处 理 等 全 局 算法 ,并 且 任 
何 操作 需要 能 够 容忍 网 络 延 时 ,特别 是 高 并 发 的 查询 操作 不 得 依赖 多 个 服务 器 节点 (不 超 
过 3 个 ) ,和 否则 无 法 进行 扩展 。 在 引入 HBase 系统 时 ,根据 上 网 记录 的 地 域 分 布 特点 ,对 
数据 进行 预 分 区 ,并 且 使 用 Zookeeper (实现 paxos 算法 ) 来 维护 索引 信息 。 任 何 一 个 查 
询 操作 最 多 通过 两 个 服务 器 。 索 引信 息 被 缓存 在 客户 端 , 绝 大 部 分 查询 只 需要 访问 一 台 
服务 器 ,因此 系统 的 并 发 处 理 能 力 随 着 集群 规模 扩大 而 线性 增加 。 

另 一 方面 ,为 了 解决 集群 性 能 受 限于 集群 中 慢 速 机 器 的 问题 ,为 HDFS 增加 了 动态 
负载 均衡 能 力 。HDFS 在 2003 年 设计 之 初 ,假设 的 条 件 是 访问 本 地 磁盘 最 快 ,而 网 络 较 
慢 (100Mbps)。 但 现代 网 络 技术 发 展 很 快 ,10Gbps 的 以 太 网 开始 普及 ,而 磁盘 速度 没有 
飞速 发 展 。 因 此 ,我 们 设计 了 全 新 的 HDFS 数据 块 选取 策略 ,自动 监控 全 网 的 点 对 点 的 
访问 延 时 ,在 读 取 数据 块 时 ,选取 访问 延 时 最 低 的 服务 器 ,而 不 总 是 本 地 磁盘 。 这 个 改进 
极 大 提高 了 系统 的 可 扩展 性 。 

4. 系统 的 高 可 用 性 

在 实际 生产 环境 中 HBase 存在 多 个 稳定 性 问题 ,包括 元 数据 (meta table) 损 坏 、 
regionserver 异常 退出 、 元 数据 因为 竞争 (race condition) 导 致 状态 不 一 致 和 H Master fii 
溃 等 问题 。 在 实际 应 用 中 ,解决 了 所 有 这 些 稳定 性 问题 ,完善 了 HBase master Ib JE $, 
对 不 稳定 的 网 络 环境 有 更 好 的 适应 性 ,从 而 保证 系统 持续 稳定 地 工作 。 表 4. 1 列 出 了 提 
交 到 Apache HBase 社区 的 补丁 ,这 些 补丁 针对 联通 上 网 记录 集群 中 发 现 的 问题 ,给 出 了 
相应 的 解决 方案 。 
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表 4.1 提交 到 Apache HBase 社区 的 补丁 


Key Summary Issue Type Status Priority 


Master should not ignore event RS_ZK_ 
HBASE-6300 | REGION_OPENED when regionState is null Bug Open Major 
or unexpected 


RS starts region open while fails ack to 


HMaster. sendRegionOpen() causes incon- Patch T" 
BASE 02 sistency in HMaster’s region state and a Bug Available Pine 


series of successive problems 


ROOT region doesn't get re-assigned in Paich 
HBASE-6289 | ServerShutdownHandler if the RS is still] — Bug | 0) | Critical 
working but only the RS’s ZK node expires ER 


Serializing “List” containing null elements 
HBASE-6049 | will cause NullPointerException in Hbase- Bug Resolved Major 
ObjectWritable. writeObject() 


HBASE-6029 HBCK doesn't recover Balance switch if Bug Resolved Major 


exception occurs in onlineHbck() 


Inconsistency between the "regions" map 


HBASE:829 and the "servers" map in AssignmentManager 


Bug Resolved Major 


目前 每 天 记录 条 数 在 700 亿 以 上 ,最 高 人 库 速 度 达 到 145 万 条 每 秒 ,存储 采用 LZO 
压缩 算法 ,压缩 比 为 28%。HBase 集群 每 个 regionserver 有 1500 个 region. 


4.3.3 优化 策略 


优化 策略 是 由 多 种 方法 组 成 的 策略 组 ,包括 多 维 动态 负载 均衡 算法 ,增强 磁盘 快速 顺 
序 写 方法 ,动态 自 适 配 数据 分 布 和 读 取 算法 , 增 量 式 全 文 索引 方法 ,分 层 聚 合 的 SQL 执行 
引擎 和 多 层次 、 分 布 式 统计 方法 等 ,如 图 4.9 所 示 。 


基于 动态 调整 的 数据 分 布 " 
和 和 读 取 算法 全 局 数据 访问 热点 监控 Leese cl 


图 4.9 优化 策略 组 合 
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4.3.4 HBase 5 DatabaseX 比较 

我 们 将 H Base 开源 方案 与 另 一 商用 关系 型 数据 库 DatabaseX 进行 了 基于 二 级 索引 
查询 性 能 比较 ,比较 测试 的 环境 参见 附录 B. 

l. 插入 速度 统计 分 析 


DatabaseX 在 建立 局 部 前 级 索引 的 情况 下 ,插入 效率 与 数据 量 大 小 关系 如 图 4. 10 所 
示 。 从 图 中 可 以 看 出 随 着 数据 量 的 增 大 ,插入 效率 明显 降低 。 由 图 中 数据 推测 ,在 边 插入 
数据 边 建 立 索 引 的 情况 下 ,插入 25 亿 条 数据 ,预计 需要 230 小 时 。 


耗 时 ( 秒 ) 速度 ( 百 行 / 秒 ) 
2500 F 83 33 mes 50 万 行 插入 时 间 (s) ]?» 


一 插入 速度 ( 百 行 / 秒 ) 780 


2000 - 


1500 - 


1000 - 


500 F 


0 


1 
BS QS A S SO uS A ud e 
v x w Ñ O P C S 
Dx 
SSU mum S AS eo” "d SS 
45 
表 行 数 (万 行 ) 


图 4. 10 DatabaseX 建立 局 部 前 缀 索引 时 的 插入 速度 


测试 中 HBase 插入 31 亿 数 据 总 共 耗 时 746min, 平 均 插 入 速度 为 69 260 条 / 秒 。 
图 4. 11 为 插入 过 程 中 按 每 分 钟 统计 平均 插入 速度 所 绘制 的 图 ,从 图 中 可 以 看 出 , 随 着 数 
据 的 插入 ,HBase 的 插入 速度 基本 是 平稳 的 .没有 明显 的 下 降 。 

2. 平均 响应 时 间 

图 4. 12 和 图 4. 13 分 别 是 DatabaseX 数据 库 与 HBase 查询 在 不 同 并 发 度 情况 下 的 
平均 响应 时 间 ,图 中 只 选取 两 个 数据 集 大 小 与 HBase 表 大 小 相近 的 进行 展示 ,从 图 中 可 
以 得 出 两 点 结论 。 

(1) HBase 的 查询 响应 时 间 明 显 优 于 DatabaseX 数据 库 , HBase 是 毫秒 级 响应 ,而 
DatabaseX 是 秒 级 响应 。 
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速度 ( 行 / 秒 ) 
120 000 


时 间 ( 分 钟 ) 
图 4.11 HBase 插 入 31 亿 数 据 每 分 钟 平 均 插入 速度 


一 一 5.8 亿 记录 一 一 11.5 亿 记录 >e 28.2 亿 记录 —e- 23.1 亿 记录 


0 1 1— " 
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并 发 数 


图 4. 12  DatabaseX 查询 平均 响应 时 间 


(2) 随 着 数据 量 的 增加 ,DatabaseX 数据 库 查 询 在 并 发 的 情况 下 ,响应 时 间 会 明显 变 
长 ,而 HBase 的 响应 时 间 变 化 相对 较 小 。 


3. fin hk 


图 4. 14 和 图 4. 15 是 在 测试 中 DatabaseX 和 HBase 在 250 并 发 下 的 吞吐 量 随 着 数 
据 集 大 小 变化 的 情况 。 从 图 4. 14 中 可 以 看 到 DatabaseX 数据 库 的 吞吐 量 都 逐渐 降低 ， 
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图 4.13 HBase 查询 平均 响应 时 间 
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图 4.14 DatabaseX 数据 库 吞 吐 量 随 数 据 集 增 大 的 变化 (并 发 度 为 250) 


2500 


2000 ——, il 


D 
3 
S 


吞吐 量 (ops/s) 
S 
E 


0 1 1 1 
6 亿 12 亿 24 亿 31 亿 


数据 量 
图 4.15 HBase 数据 库 吞 吐 量 随 数 据 集 增 大 的 变化 (并 发 度 为 250) 
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HBase 没有 明显 的 下 降 趋 势 。 从 整体 而 言 ,HBase 的 吞吐 量 明 显 高 于 DatabaseX, 这 主要 
是 由 于 HBase 的 响应 时 间 比 DatabaseX 数据 的 响应 时 间 低 一 个 数量 级 。 


4.4 流量 大 数据 -经 营 与 挑战 


4.4.1 流量 大 数据 经 营 


流量 大 数据 经 营 是 一 项 投资 巨大 \ 涉 及 面 广 ,具有 重要 意义 的 活动 ,下 面 以 中 国联 通 
移动 互联 网 综合 业务 分 析 与 监控 平台 中 为 例 , 该 平台 曾 获 2013 年 国家 科技 进步 二 等 奖 。 

1. 流 记录 数据 采集 

中 国联 通 移 动 互联 网 综合 业务 分 析 与 监控 平台 通过 在 省 分 公司 侧 的 Gn 接口 采集 分 
组 域 用 户 上 网 数据 ,并 进行 信 令 和 业务 解析 、 合 成 ,生成 移动 用 户 上 网 流量 详 单 记录 
(Flow Detail Record,FDR)。 通 过 进一步 采集 Gi 防火 墙 系统 日 志 信 息 , 结 合 FDR 记录 ， 
生成 符合 IP 地 址 溯源 要 求 的 用 户 IP 地 址 溯源 记录 。 上 述 记 录 通 过 IP 承载 网 FTP 上 传 
至 总 部 平台 中 。 总 部 平台 对 数据 进行 校 验 并 和 人 库 存储。 基于 实时 数据 的 存储 汇总 分 析 ， 
总 部 平台 在 数据 层 之 上 建立 以 下 应 用 服务 : 上 网 记录 查询 服务 、IP 地 址 溯源 服务 NET 
手机 号 码 识别 .身份 鉴 权 .个 性 化 信息 服务 .统计 报表 与 用 户 行为 分 析 服 务 .3G 网 络 建设 
和 运行 分 析 服 务 。 

中 国联 通 移 动 互联 网 综合 业务 分 析 与 监控 平台 总 体 架构 如 图 4. 16 所 示 。 

文件 上 传 及 缓存 服务 器 将 收 到 的 FDR 和 TP 地 址 溯源 数据 上 传 至 数据 入 库 子 系 统 的 
指定 目录 中 ,该 目录 根据 不 同 的 省 份 进行 设 定 。 服 务 器 同时 具备 缓存 7 天 的 能 力 和 重 传 
纠 错 功能 。 

FDR 包含 的 字段 有 手机 号 码 、 位 置 区 编码 .CI 号 码 、 终 端 类 型 .流量 类 型 .开始 时 间 、 
结束 时 间 、 上 行 流量 .下 行 流量 .访问 的 网 络 类 型 终端 IP, EL RO IP dA S 85, HI P RE 
(User Agent) , APN,IMSI,SGSN IP,GGSN IP, RŽ #! (Content-Type) 、 源 端口 、 目 的 
端口 . 话 单 合 并 标识 和 网 址 /特征 信息 等 。 

采集 处 理 设备 可 以 识别 的 业务 类 型 大 类 包括 彩信 、WAP 及 Web 网 络 浏览 .即时 消 
息 、 流 媒体 、 邮 件 、 网 络 电话 ,文件 传送 和 P2P 等 。 

对 于 IP 地 址 溯源 ,记录 中 包含 的 字段 有 手机 号 码 .NAT 开始 时 间 持续 时 间 ,访问 时 
I8], Z3; IMEL HI PU RA IS] IP、 私 网 端口 .NAT 后 公 网 源 IP 地 址 .NAT 后 源 端口 .NAT 后 
公 网 目的 IP 地 址 .NAT 后 目的 端口 .位 置 区 域 码 信息 、 服 务 区 域 码 信息 和 目的 URL 等 。 


2. 系统 部 署 和 实施 


移动 用 户 上 网 记录 检索 与 应 用 分 析 系 统 由 中 国联 通 研究 院 开发 完成 ,在 中 国联 通 全 
国 进行 了 集中 部 署 。 部 署 架构 如 图 4.17 Bron. 
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图 4.17 移动 用 户 上 网 记录 检索 与 应 用 分 析 系 统 
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3. 系统 性 能 指标 

(1) 每 条 用 户 上 网 记录 中 ,用 户 号 码 填充 率 在 99% 以 上 ,业务 类 型 识别 率 在 95% 
BE. 

(2) CRM 计 费 详 单 与 上 网 记录 中 的 流量 比 对 精度 在 9826 VA E o 

(3) 上 网 记录 查询 速度 一 般 不 高 于 1s( 不 包含 用 户 访问 查询 页 面 的 时 间 ) 。 

(4) 在 用 户 访问 行为 发 生 后 能 查询 到 该 条 上 网 记录 的 时 延 小 于 30min。 

4. 上 网 记录 查询 与 分 析 服 务 

数据 查询 与 分 析 子 系统 主要 完成 上 网 记录 查询 、 统 计 分 析 和 IP 地址 溯源 查询 等 功 
能 ,如 图 4.18 所 示 。 


总 部 上 网 记录 查询 与 分 析 系 统 


系统 接口 层 
其 他 系统 接口 FTP 系 统 接 口 
业务 展现 层 
客服 支撑 报表 支撑 自助 查询 数据 分 析 管理 维护 


业务 支撑 层 
上 网 记录 查询 服务 统计 分 析 服 务 知识 库 管理 配置 
支撑 查询 操作 EAE | | ZEAE | || [基站 位置 “][ 现 站 域名 解析 | | L 系统 管理 


统计 分 析 类 
业务 类 型 信息 ] tet ||| | 知识 库 管 理 


数据 层 
基于 HBASE 的 数据 库 | 


图 4.18 上 网 记录 查询 与 分 析 系 统 功能 


(1) 记录 查询 。 
根据 其 作用 主要 分 为 两 大 部 分 ,一 部 分 给 最 终 客 户 提供 ,实现 自助 查询 ; 另 一 部 分 给 
营业 员 提 供 , 主 要 解决 流量 投诉 问题 。 用 户 可 以 进行 多 种 方式 的 查询 : 按 用 户 号 码 、 上 网 
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方式 .时 间 段 、 网 络 承载 类 型 .业务 类 型 .信息 类 型 等 查询 ,以 及 按 以 上 各 种 条 件 进 行 组 合 
查询 。 查 询 结果 返回 内 容 包括 用 户 上 网 的 接 人 地 点 ` 上 网 方式 .业务 类 型 、 信 息 类 型 ,发送 
流量 .接收 流量 ,总 流量 开始 时 间 结束 时 间 .总 时 长 和 访问 网 站 地 址 等 。 

(2) 统计 分 析 。 

通过 MapReduce 和 HIVE 技术 ,实现 对 数据 流量 进行 统计 ,分析 ,获取 统计 数据 , 包 
括 流量 分 布地 区 、 热 点 业务 ,热门 网 站 等 具有 高 价值 的 统计 分 析 信 息 , 以 及 实现 用 户 行为 
分 析 和 描述 用 户 画 像 等 。 


4.4.2. 流量 大 数据 一 挑战 


1. 大 数据 安全 体系 建设 

大 数据 安全 体系 建设 是 保证 用 户 隐 私 数据 不 泄露 的 必 备 条 件 ,一 般 而 言 ,系统 安全 机 
制 由 认证 (Authentication) 和 授权 (Authorization) 两 大 部 分 构成 。 认 证 就 是 简单 地 对 一 
个 实体 的 身份 进行 鉴别 判断 ,而 授权 则 是 向 实体 授予 对 数据 资源 和 信息 访问 权限 的 决策 
过 程 。 

随 着 联通 大 数据 平台 的 Hadoop 集群 被 越 来 越 多 地 应 用 在 生产 环境 的 数据 分 析 工 作 
中 ,用 户 越 来 越 多 ,使 用 者 的 身份 也 越 来 越 复 杂 , 需 要 考虑 权限 控制 与 数据 保护 等 安全 问题 。 

Hadoop 集群 的 安全 问题 主要 体现 在 如 下 方面 。 

(1) 缺乏 用 户 和 服务 器 之 间 的 安全 认证 机 制 。 

(2) 安全 授权 机 制 。 

(3) 缺乏 数据 传输 与 存储 加 密 机 制 。 

Hadoop 2. 0 增强 了 安全 机 制 ,Hadoop 2. 0 中 的 认证 机 制 采用 Kerberos 和 Token 两 
种 方案 ,而 授权 则 是 通过 访问 控制 ACL 列表 (Access Control List) 实 现 的 。 

Hadoop 2. 0 认证 机 制 中 ,Client 与 NameNode 首次 通信 以 及 Client 与 Resource- 
Manager 之 间 首 次 通信 时 均 采 用 Kerberos 进行 身份 认证 ,之 后 切换 到 Delegation Token 
以 降低 开销 ,而 DataNode 与 NameNode 和 NodeManager 与 ResourceManager 之 间 的 认 
证 始终 采用 Kerberos 机 制 。 

Hadoop 2.0 授权 机 制 中 ,Hadoop YARN 的 授权 机 制 是 通过 访问 控制 列表 (ACL) 实 
现 的 ,按照 授权 实体 ,可 分 为 队列 访问 控制 列表 ,应 用 程序 访问 控制 列表 和 服务 访问 控制 
列表 。 

2. 用 户 隐 私 保护 

在 构建 以 上 商业 生态 系统 的 过 程 中 ,隐私 是 需要 重点 考虑 的 内 容 。 为 了 解决 隐私 问 
题 ,真实 用户 ID 转换 为 anonymous ID/pseudo ID 是 关键 基础 , 即 用 户 数据 匿名 化 。 同 时 
真实 ID 的 匿名 化 或 者 伪 ID 生成 过 程 . 可 以 采用 定时 更 新 机 制 四 。 通 过 这 种 defender Hy 
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御 机 制 , 可 以 有 效 挫败 攻击 者 通过 累积 密 文 获取 信息 量 的 攻击 方法 。 确 保 大 数据 服务 合 
作 伙伴 只 能 获得 相应 的 部 分 信息 ,而 非 用 户 的 所 有 信息 。 

用 户 隐 私 保护 的 其 他 有 效 手段 ,包括 如 下 。 

(1) 全 机 器 自动 处 理 。 

(2) 统计 数据 而 非 个 体 数据 。 

(3) 安全 加 密 的 数据 库 吕 。 

3. 新 商业 模型 

ISP 累积 了 大 量 的 移动 上 网 流量 与 记录 。ISP 商业 模式 (Business Mode) 发 生 了 创新 
变化 ,从 话音 与 SMS 业务 , 转 为 买 流量 送 话音 短信 。 特 别 是 OTT 业务 发 展 , 如 WeChat、 
IMessage 和 Facetime 等 ,进一步 促进 了 ISP 的 模式 改变 。 

ISP 从 基础 框架 提供 服务 转向 大 数据 经 营 , 如 何 构架 以 大 数据 经 营 为 中 心 的 生态 系 
统 Ecosystem。 需 要 吸引 合作 方 或 利益 相关 者 企业 参与 ,主要 参与 的 合作 方 如 下 。 

(1) 大 数据 服务 商 。 

(2) 大 数据 分 析 与 挖掘 商 。 

(3) 内 容 提供 与 客户 端 。 

经 营 流量 数据 ,依靠 底层 健壮 有 效 的 数据 采集 与 检测 系统 ,和 有 效 的 大 数据 平台 的 支 
撑 。 下 面 介绍 一 下 中 国联 通 的 数据 采集 与 大 数据 平台 的 生态 系统 。 

1) 大 数据 生态 系统 分 工 与 共 荣 

运营 商 的 推送 与 能 力 开发 平台 ,参考 互联 网 的 开放 平台 的 功能 与 实现 。 为 大 数据 服 
务 商 (开放 接口 与 平台 )、 大 数据 分 析 与 挖掘 商 和 内 容 提供 与 客户 端 提供 不 同 层 级 的 数据 
视图 (Data View)。 在 保护 用 户 隐 私 和 安全 前 提 下 ,各 司 其 职 , 实 现价 值 链 的 构建 与 共 赢 。 

2) 个 性 化 推荐 系统 实例 

个 性 化 推荐 系统 "是 用 户 潜在 兴趣 与 内 容 提 高 商 的 内 容 匹 配 的 关键 ,好 的 推荐 系统 
能 够 有 效 挖掘 用 户 需求 ,减少 用 户 获取 内 容 的 时 间 ,提供 用 户 体验 。 大 数据 分 析 与 挖掘 商 
和 内 容 提供 商 通过 个 性 化 推荐 技术 ,如 协同 过 滤 53 等 ,分 析 用 户 历史 行为 ,最 大 化 推荐 系 
统 和 用 户 体验 。 


4.5 流量 大 数据 一 总 结 


构建 基于 流量 大 数据 的 产业 生态 系统 是 运营 商 的 发 展 方向 。 本 章 提 出 了 基于 流量 大 
数据 的 生态 系统 产业 经 济 建设 的 方案 ,产业 合作 方 partner 包括 基础 框架 服务 商 ISP、 运 
营 商 的 大 数据 服务 商 、 大 数据 分 析 与 挖掘 企业 、 内 容 与 客户 端 应 用 商 。 流 量 大 数据 产业 经 
济 依赖 于 健壮 有 力 的 大 数据 平台 和 流量 获取 与 分 析 系 统 。 

本 章 介绍 了 中 国联 通 的 大 数据 服务 的 关键 技术 及 基础 架构 。 中 国联 通 的 流量 用 户 数 
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据 采 集 与 大 数据 平台 ,为 中 国联 通 的 业务 产生 更 大 的 价值 ,促成 了 移动 用 户 、 运 营 商 和 互 
联网 服务 公司 的 多 赢 。 
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互联 网 流量 攻击 检测 关键 技术 


互联 网 流量 攻击 检测 主要 通过 网 络 攻 击 检测 引擎 来 实现 。 在 介绍 攻击 检测 引擎 原型 
的 实现 时 ,主要 介绍 分 类 模块 和 检测 模块 及 其 关键 技术 。 对 于 一 般 的 网 包 接收 发 送 模块 
细节 将 不 再 详细 叙述 , 详 见 第 3 章 内 容 。 

在 讨论 网 包 内 容 深 度 检测 算法 时 ,主要 讨论 深度 包 检测 算法 本 身 , 在 讨论 作为 引擎 核 
心算 法 的 多 模 匹 配 算法 时 ,主要 是 Bloom Filter 算法 和 HBM 算法 。 


5.1 网 包 处 理 流程 
一 个 典型 的 网 包 处 理应 用 程序 大 概 包 含有 3 个 逻辑 层面 : 数据 层 、 控 制 层 和 管理 层 。 
处 理 程序 基本 上 集中 在 利用 网 包 数 据 读 写 层面 上 的 组 件 。 
5.1.1 系统 结构 


攻击 检测 引擎 整体 结构 设计 如 图 5. 1 所 示 。 本 引擎 主要 包括 初始 化 工作 和 运行 时 工 
作 两 部 分 。 扫 描 匹 配 引擎 中 ,初始 化 工作 由 控制 层面 完成 。 


一 一 告警 与 响应 动作 
控制 与 特征 库 更 新 [是 Ree 


可 疑 网 络 流量 


攻击 特征 码 


1 
多 核 并 行 过 滤 


网 包 或 网 流 


5.1 攻击 检测 引擎 整体 结构 设计 
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初始 化 工作 主要 完成 对 于 攻击 特征 码 的 初始 化 ,生成 位 向 量 (Bloom Filter 算法 ) 或 
者 启发 式 移 位 表 (HBM 算法 ) ,同时 重新 将 新 的 特征 码 组 织 成 散 列 链表 方式 ,减少 后 续 精 
确 比较 时 的 1/O 次 数 。 

运行 时 工作 主要 包括 网 包 的 接收 、 分 类 ,检测 扫描 和 转发 功能 ,其 中 的 分 类 与 流 重组 、 
检测 扫描 模块 是 本 引擎 的 核心 算法 所 在 。 运 行 时 工作 由 数据 层面 的 多 核 执 行 完成 。 

图 5. 2 为 多 核 平台 的 网 包 处 理 的 整体 流程 示意 图 。 当 网 包 到 达 时 ,按照 存储 转发 方 
式 进 行 。 每 个 功能 模块 被 分 配 到 各 个 核 上 并 行 执 行 。 多 个 核 之 间 依靠 内 存 中 的 数据 结构 
环 通信 。 各 个 检测 扫描 引擎 并 行 执行 ,其 负载 平衡 可 以 由 网 包 分 类 模块 在 把 网 包 信息 放 
入 环形 数据 结构 进行 控制 ,也 可 以 由 各 个 检测 扫描 引擎 竞争 执行 。 
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图 5.2 网 包 处 理 的 整体 流程 示意 图 


1. 基于 TCP/IP 流 扫描 扩展 功能 

对 于 使 用 TCP 连接 来 发 起 攻击 来 说 ,特征 码 可 能 会 被 分 割 到 多 个 TCP 网 包 载荷 中 ， 
因此 ,对 于 这 类 攻击 还 需要 进行 TCP 流 状 态 的 维护 ,以 便 即 时 发 现 跨越 在 2 个 或 2 个 以 
上 TCP 网 包 载 荷 中 的 攻击 特征 码 。 

2. 流 状态 的 记录 

每 个 TCP 流 状态 为 64B.512K 流 共 消耗 32MB 空间 。32K 流 状态 记录 空间 用 于 散 
列表 的 碰撞 分 解 ,消耗 2MB 空间 。 总 共 消 耗 34MB 空间 。 

表 5.1 为 TCP 流 状态 记录 数据 结构 ,每 个 流 状 态 记 录 为 64B 长 度 , 其 中 包括 该 
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TCP/PP 流 的 五 元 组 、 五 元 组 散 列 函数 值 、 Next Flow 指针 、Sequence Number, 
TimeStamp( 用 于 标记 陈旧 无 用 的 流 状 态 ) ,Remaining Length 用 来 指示 16B 大 小 的 空间 
中 存放 的 剩余 未 比较 的 网 包 载 荷 。 


表 5.1 TCP 流 状态 记录 数据 结构 


LW Bits Size Field Description 

0 31:0 32 | Hash Value The hash value of five-tuple 

1 31:0 32 | Next Flow Pointer Address of the next Flow state in DRAM 
2 31:0 32 | Source IP address Source IP address 

3 31:0 32 | Destination IP address Destination IP address 

4 31:0 32 | TCP Source Port Source port 

5 31:0 32 | TCP Dest Port Destination port 

6 31:0 32 | Protocol Protocol (TCP, UDP etc. ) 

7 31:0 32 | Sequence Number TCP packet sequence number 

8 31:0 32 | Payload offset Source and Destination Port 

9 31:0 32 | CODE BITS Some Flags for Packet handling 

10 31:0 32 | Time Stamp The time mark for the arrival packet(update) 
11 31:0 32 | Remaining length Index the last remaining byte length 

12 31:0 32 | the first word The first word of the last packet in flow 
13 31:0 32 | the second word The second word of the last packet in flow 
14 31:0 32 | the third word The third word of the last packet in flow 
15 31:0 32 | the fourth word The fourth word of the last packet in flow 


网 流 状 态 记录 表 采 用 定时 更 新 ,以 释放 相应 的 空间 , 即 每 隔 固定 时 间 ,删除 所 有 过 时 
(TimeOut) 的 流 状态 记录 。 同 时 , 当 收 到 FIN 包 时 ,删除 流 状态 记录 ,释放 空间 。 

TCP 流 状态 记录 存储 采用 散 列 表 结 构 , 如 图 5. 3 所 示 , 以 便于 快速 查找 相应 的 流 状 
态 记 录 。 这 里 散 列 函数 为 CRC 单元 ,使 用 CRC32 或 CRC-CCITT。 散 列表 的 索引 是 
TCP/IP 网 包 五 元 组 采用 散 列 函数 后 的 任意 16b 值 。 


3. 分 类 器 的 设计 和 实现 
分 类 器 完成 的 功能 包括 如 下 。 
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Key | Data o>} Key | Data au 
NULL Key | Data sd, 
Key | Data *e—j—"-, Key | Data | NULL Key | Data | NULL 


NULL 
NULL 
Key | Data | 。 一 一 Key | Data | NULL 
Key | Data e—]—-] Key Data 

NULL m 
NULL 
Key | Data e—]—-| Key Data 

NULL ^ 
NULL 
NULL 
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Key | Data o> Key Data | ~ 


NULL 


Key | Data | NULL 


Key | Data | NULL 


Key Data | NULL 


图 5.3 TCP 流 状态 的 散 列 链表 存储 方式 


COD. 从 接收 Scratchpad Ring 读 取 网 包 摘 要 信息 。 

(2) 抽取 该 网 包 的 TCP/IP 五 元 组 信息 。 

CD 对 抽取 的 五 元 组 进行 散 列 操作 。 

(4) 查找 流 状态 信息 ,确定 该 网 包 是 否 为 新 到 达 流 的 网 包 还 是 已 记录 流 的 网 包 , 然 后 
进行 相应 的 操作 。 

G) 写 网 包 摘 要 信息 至 相应 的 SRAM Ring。 为 了 保证 网 包 的 顺序 ,采用 线程 保 序 的 
设计 方式 (Thread Ordered Model) ,如 图 5.4 所 示 。 


4. 跨 TCP 包 特 征 检 测 


根据 以 上 两 节 的 设计 ,可 以 做 到 检测 跨 TCP 包 特 征 码 。 原 因 如 下 所 示 。 

d) 网 络 网 包 通过 扫描 线程 号 ,由 散 列 函数 计算 流 状态 得 到 ,保证 同一 个 流 的 网 包 通 
过 同一 个 线程 。 

(2) 通过 信号 量 , 将 微 引 擎 的 线程 模式 设计 成 保 序 方式 ,从 而 保证 经 过 该 线程 的 同一 
个 流 的 网 包 保 序 , 即 保证 了 网 包 载荷 拼接 的 有 效 性 。 

(3) 在 TCP 流 状态 记录 的 数据 结构 中 , 留 下 了 空间 ,专用 于 记录 同一 个 流 上 一 个 包 
的 载荷 尾部 的 数据 。 使 得 拼接 过 程 简单 。 

CD 车 特征 码 跨 越 3 个 或 3 个 以 上 TCP 包 时 ,TCP 流 状态 记录 能 够 记录 前 几 个 包 载 
荷 的 拼接 总 和 ,不 需要 对 此 进行 特殊 的 处 理 。 
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5.1.2 功能 模块 图 


匹配 引擎 主要 功能 模块 及 其 关系 如 图 5. 5 所 示 。 从 接收 模块 到 达 的 网 包 先 进行 五 元 
组 TCP/IP 头 处 理 ,并 由 此 建立 相应 的 流 状 态 记 录 。 接 着 进行 网 包 载荷 的 内 容 匹 配 过 程 ， 
从 特征 库 里 对 网 包 载荷 进行 查找 ,如 果 特 征 匹配 成 功 , 则 进一步 对 该 网 包 进 行规 则 处 理 。 


图 5.5 匹配 引擎 的 功能 模块 图 


5.1.3 多 核 组 织 模式 


匹配 引擎 中 多 核 组 织 模式 采用 并 行 模式 ,如 图 5. 6 所 示 。 并 行 模式 有 很 高 的 并 行 度 
和 很 高 的 吞吐 量 , 但 是 付出 的 代价 是 数据 包 的 乱 序 。 


Classifier IP 


Forwarder 


5.6 匹配 引擎 中 的 多 核 分 工 组 合 (逻辑 ) 


深度 包 检 测 模块 并 行 执行 ,并 且 还 可 以 根据 空闲 处 理 核 数 量 和 速度 需要 调整 其 配置 
数量 。 同 时 ,这 样 的 组 织 方式 ,可 以 方便 插 拔 式 深 度 包 检测 模块 加 入 到 已 有 的 系统 中 去 。 


第 5 章 互联 网 流量 攻击 检测 关键 技术 UU 


5.2 多 模 匹 配 算法 概述 


深度 包 检测 的 核心 算法 是 多 模 匹 配 算法 , 即 检测 网 络 网 包 载 荷 中 是 否 含有 某 一 个 特 
征 码 。 

匹配 多 特征 字符 串 的 算法 称 为 多 模 匹 配 算法 (Multi-pattern Matching Algorithm) ^9 , 
即 对 于 输入 的 字符 串 ,扫描 其 是 否 包含 预先 给 定 的 若干 特征 字符 串 之 一 。 这 里 的 字符 指 
的 是 广义 上 编码 单位 所 能 表示 的 所 有 二 进 制 代码 。 在 有 些 文献 中 ,也 将 蠕虫 携带 的 特征 
字符 串 代 码 称 为 特征 码 (signature)59 。 

当前 主要 的 多 模 匹 配 算法 有 三 条 思路 。 分 别 是 Bloom Filter 算法 及 其 改进 ;AC 算 法 
及 其 改进 ;利用 失效 字符 和 启发 式 移 位 思路 的 算法 ,也 就 是 BM 算法 在 多 模 情况 下 的 推广 
形式 。 下 面 对 于 这 三 类 算法 分 别 加 以 介绍 。 


5.2.1 Bloom Filter 算法 及 其 改进 


Bloom Filter 算法 四 是 由 B. Bloom 在 1970 年 提出 的 ,主要 采用 多 散 列 计算 降低 误 
判 概率 的 思想 。 算 法 在 初始 化 时 对 每 个 特征 字符 串 均 做 多 次 不 同 的 散 列 运 算 , 在 位 矢量 
(bit-vector) 中 将 这 些 散 列 函数 值 所 对 应 的 位 进行 标记 ,在 进行 匹配 时 ,对 输入 字符 串 做 
和 初始 化 时 相同 的 多 次 散 列 运算 (可 并 行 执行 散 列 运算 ,以 提高 速度 ) ,只 要 有 一 个 散 列 值 
未 在 位 矢量 中 出 现时 , 则 此 次 比较 失败 ;车 所 有 散 列 值 均 在 位 和 撩 量 中 标记 时 , 则 将 输入 字 
符 串 和 所 有 特征 字符 串 进 行 字符 对 字符 的 精确 比较 ,以 确定 是 否 匹 配 。 

Bloom Filter 作为 一 种 简单 有 效 的 并 行 多 模 匹 配 算法 ,被 广泛 用 于 各 种 硬件 定制 平 
台中 。 针 对 各 个 不 同 的 应 用 环境 有 不 少 的 改进 和 变种 ,如 计数 Bloom Filter 算法 和 多 级 
Bloom Filter 算法 。 前 者 将 位 矢量 的 每 一 位 变 成 计数 器 ,用 以 动态 增 减 特征 码 的 个 数 ;后 
者 将 多 个 Bloom Filter 过 滤器 组 成 级 联 的 方式 ,用 以 在 尽 可 能 不 增加 时 间 开 销 的 前 提 下 ， 
减少 误 判 概率 。 


5.2.2 AC 算法 及 其 改进 


AC 算 法 中 是 由 A. Aho 和 M. Corasick 在 1975 年 提出 ,主要 采用 了 状态 机 (DFA) 
的 思想 。 算 法 根据 特征 字符 串 集合 生产 状态 机 ,根据 每 次 输入 的 字符 转移 状态 ,直到 找到 
成 功 匹配 。 记 为 输入 字符 串 的 长 度 , 该 算法 的 时 间 复 杂 度 为 OC) ,不 随 特 征 字 符 串 的 
多 少 和 长 度 而 改变 。 

AC 算法 能 漂亮 地 给 出 理论 上 的 最 坏 情况 的 时 间 复 杂 度 ,但 是 其 算法 中 状态 机 的 空 
间 要 求 往往 很 大 ,而 且 实际 情况 下 平均 性 能 往往 也 不 如 下 面 介绍 扩展 BM 算法 性 能 ,对 于 
AC 算法 的 改进 主要 在 于 有 效 地 压缩 状态 机 空间 ,减少 空间 复杂 度 。 
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5.2.3 BM 算法 的 推广 型 


BM 算法 的 推广 型 沿用 了 经 典 的 单 模 匹 配 BM 算法 的 想法 。 其 主要 思路 是 检测 失效 
字符 和 启发 式 移 位 。 单 字符 串 匹 配 的 BM 算法 5 是 由 R. Boyer 和 J. Moore 在 1977 年 
提出 的 。 算 法 思想 是 在 每 次 匹配 中 ,从 右 往 左 反 向 逐个 比较 字符 , 当 发 生 匹配 失败 时 , 根 
据 此 字符 的 信息 以 及 之 前 比较 过 的 字符 串 后 级 ( 即 字符 串 最 右 部 分 ) 信 息 , 进 行 最 大 限度 
的 向 后 移动 比较 指针 ,从 而 减少 无 用 的 比较 次 数 。 

BM 算法 在 多 模 匹 配 中 的 推广 形式 比较 著名 的 有 WM 算法 59 、Setwise BMH $f 
法 "9 和 AC-BM 算法 59 。 这 3 种 算法 的 不 同 之 处 在 于 如 何 组 织 启发 性 移 位 表 (Heuristic 
Skip Table) 。 

CD WM 算法 将 每 个 特征 字符 串 的 后 级 字符 (最 后 2 或 3 个 字符 ) 组 成 字符 块 ,来 建 
立 移 位 表 。 

(2) Setwise BMH 算法 则 是 将 后 级 字符 通过 Trie 树 的 数据 结构 建立 移 位 表 。 

(3) AC-BM 算法 则 是 通过 状态 机 建立 移 位 表 。 

当前 ,很 多 匹配 引擎 都 是 采用 BM 的 简单 推广 算法 来 实现 。 例 如 , RSI 算法 中 、 
MDH 算法 509 和 FNP 算法 [17], 可 以 看 作 是 对 WM 算法 的 一 种 继续 改进 。 

本 章 提 出 的 HBM 算法 ,也 是 BM 算法 在 多 模 匹 配 下 的 一 种 推广 ,使 用 2 张 启发 式 移 
位 表 , 在 匹配 失败 时 ,长 距离 移动 比较 指针 ,减少 比较 次 数 。 和 同 为 BM 算法 推广 型 的 其 
他 算法 (例如 WM 算法 等 ) 相 比 ,一 方面 利用 散 列 方式 组 织 启发 式 移 位 表 , 减 小 空间 开销 ; 
另 一 方面 在 移 位 表 的 构造 和 使 用 上 更 加 符合 BM 算法 的 思想 ,减少 比较 次 数 ,提高 算法 效 
率 。 因 此 ,HBM 算法 可 以 在 空间 开销 大 大 降低 的 情况 下 ,得 到 更 优 的 时 间 性 能 。 


5.3 基于 Bloom Filter 的 匹配 引擎 


5.3.1 Bloom Filter 算法 


Bloom Filter[909 在 理论 上 是 一 种 高 速 的 分 类 查找 算法 , 它 的 并 行 性 极 好 ,并 且 支 持 
巨 量 的 匹配 特征 数目 ,同时 结构 较为 简单 ,有 利于 具体 实现 。 

Bloom Filter 是 一 种 容错 的 散 列 查找 , 它 特 别 适 用 于 大 多 数 匹配 特征 都 被 拒绝 的 情 
Dl BRA n 条 匹配 特征 ,为 此 建立 一 个 Bloom Filter 检测 模块 ,BF 中 包含 一 个 m 位 的 
位 向 量 (Bit Vector. BV) ,对 每 一 条 匹配 特征 ,用 个 散 列 函 数 对 它 进行 运算 。 如 果 这 些 
散 列 函 数 的 输出 是 [1,mj 之 间 的 值 ,ts,…,t ,把 BV 中 对 应 的 第 t(i 二 1,2,…,k) 位 置 
1, 个 散 列 函数 最 多 把 BV 中 的 位 置 1,n 条 匹配 规则 最 多 把 BV 的 nk 个 位 置 1, 要 注意 
的 是 : 一 个 BF 只 有 一 个 BV。 过 滤 的 时 候 把 输入 位 序列 也 用 这 个 散 列 函 数 进行 运算 ， 
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485] t1 th sn ote ANSE BV 中 对 应 的 第 考 G 一 1,2,…,) 位 全 是 1, 那么 这 个 位 序列 可 能 与 
要 查找 的 特征 是 匹配 的 (也 就 是 存在 误 判 False Positive); 如 果 BV 中 对 应 的 ti(i=1， 
2. O 位 不 全 是 1, 那 么 这 个 位 序列 肯定 和 要 查找 的 特征 是 不 匹配 的 (也 就 是 不 存在 漏 
判 False Negative) 。 由 于 大 多 数位 序列 都 是 被 拒绝 的 ,所 以 误 判 概率 很 小 ,平均 查找 次 数 
(时 间 ) 不 会 受 多 少 影响 ,而 空间 开销 却 大 大 减少 了 。 可 以 证 明 , 当 mw。 R=m + In2 时 ， 
Bloom 过 滤器 效率 达到 最 高 , 误 判 的 概率 为 [二 (1/2)*。 

鉴于 特征 码 的 多 样 性 和 多 变种 性 ,Bloom 过 滤器 必须 实时 动态 地 修改 其 匹配 特征 数 
据 库 ,动态 更 新 病毒 特征 序列 ,为 此 需要 采用 计数 Bloom 过 滤器 技术 (Countable Bloom 
Filter) 。 具 体 修改 如 下 : 在 Bloom 过 滤器 中 除 m 位 的 位 向 量 之 外 ,增加 一 个 计数 数组 
(Counter Array，CA) 记 录 BV 上 每 一 位 n 条 匹配 特征 计算 散 列 后 映射 上 的 次 数 。 如 果 
要 从 条 匹配 特征 中 减 去 一 条 匹配 特征 ,只 要 看 该 匹配 特征 散 列 值 之 后 在 某 一 位 上 是 否 
为 1, 如 果 是 , 则 CA 在 该 位 上 的 计数 值 减 1, 当 CA 该 位 计数 值 减 为 0 时 , 则 将 BV 上 该 位 
置 0。 如 果 要 从 nn 条 匹配 特征 中 增加 一 条 匹配 特征 , 则 将 对 于 BV 的 操作 同上 ,同时 更 新 
CA 记录 的 每 一 位 上 的 次 数 。 

1. 并 行 Bloom Filter 算法 


定义 1(Bloom Filter); 一 个 Bloom Filter 用 来 表示 一 个 域 U 上 个 元 素 的 集合 S— 
{S1,S;，,…,S,)}。 其 中 包括 一 个 m 位 的 数组 (Bit Vector) ,该 数组 初始 化 全 设置 为 0。 
Bloom Filter 使 用 个 独立 随机 的 散 列 函数 hi,… ,hi ,这 些 散 列 函 数 映射 每 一 个 ES 到 
范围 [0,m 一 1]。 对 于 任何 SISK, BV 中 对 应 hi(s) 位 都 设置 为 1。Bloom Filter 可 能 出 
现 一 个 误 判 (False Positive) ,就 是 指 将 并 不 存在 于 S 中 的 元 素 z 判断 为 属于 S ,但 是 它 并 
不 会 生成 一 个 漏 判 (False Negative) 事 件 。 

考虑 到 散 列 函数 是 完全 随机 的 假设 , 记 p 二 e“”, 那 么 误 判 可 能 的 概率 函数 了 如 
XG-D: 


aab i kn / k k 
=(1-(1-+) ) x (1—emy --p (5-1) 
2. 计数 Bloom Filter 算法 


定义 2( 计 数 Bloom Filter) : 一 个 计数 Bloom Filter 是 一 种 增强 型 的 Bloom Filter, 其 
中 为 了 可 测量 性 原因 ,增加 了 与 位 向 量 (Bit Vector, BV) 每 一 位 相对 应 的 计数 器 向 量 。 
无 论 计数 Bloom Filter 增加 或 删除 一 个 成 员 ,都 需要 增加 或 消耗 计数 器 来 保证 和 位 向 量 
的 位 一 致 。 只 有 当 计数 器 从 1 变 为 0, 它 才 清 除 BV 中 的 对 应 位 。 因 此 ,这 些 Bloom 
Filter 计数 器 只 有 在 增加 或 者 删除 字符 串 时 才 改 变 。 


5.3.2 参数 选择 
在 给 定 特征 码 数目 ,位 向 量 长 度 为 m, 考 虑 到 散 列 函 数 是 完全 随机 的 情况 下 ,通过 
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改变 并 行 散 列 函 数 个 数 &, 来 使 得 误 判 概 率 函 数 f 尽 可 能 地 小 。 记 pe hl" ,将 式 (5-1) 
两 边 取 对 数 得 : 


g = Inf ~ In (1— &*/")* = kln(1— p) 7 InCp)InCl p (5-2) 
当 且 仅 当 p=1— p 时 ,g 取 最 小 值 , 即 判 概率 函数 f 取 最 小 值 。 此 时 散 列 函 数 个 数 : 
k = (m/n) * ln2 (5-3) 
误 判 概率 的 最 小 值 约 为 
fois ^ (1/2)* = (1/2) (5-4) 


5.3.3 散 列 函 数 选择 


Bloom Filter 算法 的 散 列 函数 选择 ,关系 到 系统 误 判 概率 和 性 能 参数 。 散 列 函数 的 
计算 应 该 尽 可 能 简单 快速 , 取 值 应 该 尽 可 能 平均 ,k 个 散 列 函 数 间 的 相关 性 应 该 尽 可 能 
地 小 。 

在 匹配 引擎 设计 中 ,我 们 尝试 了 3 种 散 列 方法 。 实 现 8 个 散 列 函数 运算 操作 ,采用 
MDS 中 的 子 函数 方法 需要 34 个 微 引 擎 时 钟 周期 ,而 使 用 CRC 单元 需要 152 个 微 引擎 时 
钟 周期 ,同时 CRC 单元 有 限 ,无 法 由 多 个 微 引 擎 并 行使 用 。 而 Ramakrishna-Fu- 
Bahcekapili 函数 在 适合 字 节 操作 的 NP 上 实现 起 来 不 是 很 方便 ,该 方法 更 加 适合 硬件 并 
行 逻 辑 操 作 的 平台 。 因 此 ,引擎 采用 第 一 种 方法 ,获得 较 高 的 计算 速度 和 散 列 分 布 效果 。 

3 种 散 列 函 数 的 详细 计算 方法 如 下 。 

1. MDS 的 子 函 数 F.G、H RIT 

用 & 表示 与 (AND) 操 作 , 一 表示 非 (INVERSE) 操 作 ,| 表示 或 (OR) 操 作 , 人 表示 异 
(XOR, EXCLUSIVE OR) 操 作 , 在 Rivest s MDS (RFC1321)°7 rfj F.G, H fill PR 
数 如 下 : 

F(X,Y,2)=(X&Y)|(~X) 8&2); 

G(X,Y.Z)=(X&Z)| (YE (~Z)); 

HOGY,Z) X^Y^Z; 

ICX,Y,2) -Y^OX| C2»). 

在 实现 中 ,可 以 将 输入 字符 串 切 成 若干 段 ,替换 以 上 4 个 函数 中 的 X.Y、Z, 从 而 产生 
4 个 .8 个 乃至 更 多 的 散 列 函 数 。 

2. Ramakrishna-Fu-Bahcekapili 散 列 函数 


UFR XS (xy ea es otn: ,用 "表示 AND 操作 ,^ 表示 XOR 操作 ,其 散 
列 函数 定义 如 下 : 
h, (X) Sr; * a ^ra * a^ ter, t an On ore ett ,rs) 是 [0,m 一 1j 之 间 随 机 生成 数 。 
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这 样 ,每 个 散 列 函 数 包 含有 5 个 不 同 的 随机 数 。 

3. CRC 单元 和 散 列 单元 

多 核 处 理 器 上 CRC 单元 在 执行 数据 通道 上 并 行 执 行 。 它 包含 有 两 个 操作 数 ,执行 一 
个 CRC 操作 ,再 写 回 结果 。 在 CRC 单元 中 ,可 选用 两 个 特征 多 项 式 , 即 CRC-CCITT 和 
CRC-32。 通 过 初始 化 设置 CRC_Remainder Local CSR( 控 制 和 状态 寄存 器 ) ,不 同 的 散 列 
函数 能 够 通过 使 用 同一 个 特征 多 项 式 来 构造 。CRC 操作 的 32 位 结果 数据 回 写 到 CRC 
Remainder Local CSR 。 

散 列 单元 的 散 列 函 数 可 以 输入 48 位 .64 位 或 者 128 位 数据 ,分 别 生 成 一 个 48 位 64 
位 或 者 128 位 散 列 索引 。 发 送 请 求 命令 给 散 列 单元 把 传输 寄存 器 的 数据 输入 散 列 单元 
中 ,然后 基于 数据 进行 散 列 操作 ,并 将 结果 写 回 到 传输 寄存 器 。 


5.4 基于 HBM 算法 的 匹配 引擎 


5.4.1 记号 和 假设 


记 特 征 字 符 串 数 为 ,长 度 为 工 , 块 大 小 为 5; 记 特征 码 为 S, S; S a AS k AY 
特征 码 S, — sosa sia-0 sid Deltal 表 长 度 为 m, 第 i 项 记 为 d1(i);Delta?2 表 长 度 固定 为 
L 一 5 十 1, 记 第 1 项 为 D,(t)。 取 散 列 函数 y 二 h(aoas…as_1) ,为 一 个 字符 块 (5 字 节 ) 到 数 
值 [0,m 一 1 的 一 个 函数 。 假 设 所 有 标号 的 下 标 均 由 0 开始 。 

为 方便 下 文 叙 述 , 现 做 以 下 定义 。 

定义 字符 块 比 较 的 “成 功 ”" 和 “失败 ”: 在 多 模 匹配 情况 下 ,对 于 每 次 字符 块 的 “比较 ”不 
再 是 字符 与 字符 的 一 一 比较 ,而 是 寻找 输入 字符 块 在 Deltal 表 中 的 值 是 否 满足 一 定 的 条 件 ， 
如 果 满 足 , 称 此 次 比较 为 一 次 “成 功 比 较 ”; 如 果 不 满足 , 称 此 次 比较 为 一 次 “失败 比较 ”。 

定义 对 子 字符 串 的 一 轮 匹 配 的 “成 功 ” 和 “失败 ”: 对 于 输入 字符 串 , 取 出 和 特征 字符 
串 相 同 长 度 的 子 字符 串 ,并 从 右 向 左 对 每 个 字符 块 进行 比较 , 称 为 一 轮 * 匹 配 ?。 如 果 每 次 
字符 块 的 比较 均 成 功 , 则 称 此 轮 匹 配 * 成 功 ”, 还 需要 和 特征 字符 串 进 行 精确 比较 ;如 果 某 
次 字符 块 比较 失败 , 则 称 此 轮 匹配 “失败 ”, 可 以 向 右 移动 子 字符 串 的 起 始 位 置 , 开 始 下 一 
轮 的 匹配 。 


5.4.2 BM 算法 回顾 


虽然 BM 算法 是 一 种 经 典 的 单 模 匹 配 算法 ,并 不 适合 直接 应 用 到 多 模 匹 配 中 ,但 是 由 
于 本 章 提出 的 HBM 算法 的 主要 思想 来 自 于 BM 算法 ,在 描述 HBM 算法 前 , 先 对 BM 算 
法 加 以 简单 介绍 ,以 便于 HBM 算法 的 理解 。 

BM 算法 是 一 种 经 典 的 高 速 字符 串 匹配 算法 。 它 和 KMP 算法 "中 类 似 , 都 是 在 比较 
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过 程 中 ,一 旦 发 现 某 个 字符 不 同 , 就 将 比较 的 位 置 尽 可 能 地 向 后 移动 ,通过 减少 比较 次 数 
来 降低 算法 的 时 间 开 销 。 所 不 同 的 是 ,BM 算法 在 每 一 次 匹配 字符 串 时 ,总 是 从 后 往 前 开 
始 比较 。 

在 BM 算法 中 ,使 用 2 张 表 来 存放 指针 移动 的 位 数 。 当 某 次 字符 比较 不 同时 ,Deltal 
给 出 的 是 根据 所 比较 字符 的 信息 ,至 少 可 以 向 后 移动 比较 指针 的 位 数 ;同时 ,Delta2 表 给 
出 的 是 根据 当前 子 特征 字符 串 信息 ,至 少 可 以 向 后 移动 比较 指针 的 位 数 。 

在 Deltal 表 中 ,每 个 字符 有 且 仅 有 对 应 的 一 项 ( 即 Deltal 表 含 有 所 有 可 能 出 现 的 字 
符 的 值 的 项 数 ) ,其 值 为 特征 字符 串 最 后 出 现 该 字符 的 位 置 。 即 记 特 征 字符 串 pattern = 
aoaiaqz*…ar-1， 当 存在 &, 满 足 ag =X FF Ba; X Gi —k-- 1. b 2. L— DIES SETE X TE 
Deltal 表 中 对 应 的 移 位 值 Di X0 =L—1—k FM Di CX) —L. 

从 定义 可 以 直观 看 出 ,一 旦 发 现 当 前 待 比较 字符 X 不 同 于 特征 字符 串 相应 位 置 的 字 
符 , 就 可 以 将 当前 指针 向 后 移动 Di XO E, 

Delta2 表 的 长 度 为 特征 字符 串 的 长 度 。 表 中 的 项 记录 在 当前 位 置 上 字符 比较 发 现 不 
同时 ,可 以 向 后 移动 比较 指针 的 位 数 。 

为 了 便于 描述 ,将 字符 串 pattern — aqaia; ata ,扩充 记 为 pattern — *: $ $ $ $aoal 
aja, ,其 中 $$ 为 假想 字符 ( 即 a; = $ ,i<0)。 

对 于 字符 串 Q 二 qoqi…g, MR Sron er, ,定义 它们 为 相 一 致 (unify), 只 要 满足 q= 
ri Maqi=$ 3k r= $ G0). AM gAro R q= $ 3X r— $ 。 直 观 地 说 ,就 是 首 字 符 不 同 
(或 者 为 假想 字符 $ ) ,其 余 字 符 相 同 (或 者 为 假想 字符 $ ) 。 

Delta2 表 的 第 j 项 的 值 ,D; C) =L—k. BER k 满足 串 Gy e ez QH 和 aja ja ttt 
ar-1 为 相 一 致 ,同时 不 存在 串 aua iy ign taion Ce EJ) Ml aja sa nan 为 相 一 致 。 直 
WIH k ERA RER ajajan 为 相 一 致 的 子 字符 串 的 起 始 位 置 。 

定义 完 Deltal 和 Delta2 表 后 ,BM 的 算法 流程 可 以 用 图 5.7 描述 。 


5.4.3 HBM 算法 概述 


传统 BM 算法 是 被 验证 为 相当 有 效 的 一 种 单 模 匹 配 算法 。 但 是 在 使 用 BM 算法 进行 
多 模 匹 配 的 过 程 中 ,需要 对 其 进行 很 多 改进 。 主 要 体现 在 这 几 个 方面 。 

(1) 每 次 比较 的 单位 由 单字 符 变 为 若干 字符 组 成 的 字符 块 。 

(2) 比较 方式 由 字符 的 对 应 比较 , 变 为 查找 字符 块 在 Deltal 表 ( 字 符 块 信息 的 启发 式 
移 位 表 ) 中 的 值 是 否 满足 一 定 条 件 。 

(3) Delta2 表 的 构造 和 使 用 完全 不 同 。 

(A) Deltal 表 急 剧 增 大 ,需要 特定 的 机 制 减 小 其 空间 开销 。 

这 四 点 改变 ,人 们 通过 简单 的 观察 就 能 发 现 。 

观察 A: 如 果 比 较 的 单位 仍然 为 单字 符 ,由 于 特征 字符 串 数目 很 多 ,那么 每 个 字符 都 
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1. 构造 Deltal 表 ; 
构造 Delta2 表 ; 
/一 待 比较 字符 串 string KE; 
iE FI pattern 长 度 ; 
2. if i>L then return false. 
end if 


3. /一 特征 字符 串 长 度 ; 
4. if j= 0 then return i+1 
end if 
5. if string(i) = pattern(i) 
then 
i-—i-M 
j=j; 
goto 4 
else 
i--i*max(Dy(tringG)),D« j); 
goto 2 


end if 


图 5.7 BM 的 算法 流程 


很 可 能 在 特征 字符 串 最 右 端 出 现 ,此 时 其 在 Deltal 表 的 对 应 项 为 零 。 如 果 有 上 百 个 特征 
字符 串 ,那么 Deltal 表 中 为 零 项 有 接近 上 百 项 ,而 Deltal 表 的 大 小 固定 等 于 字符 表 的 大 
小 ,车 以 单字 节 表 示 一 个 字符 来 说 ,Deltal KRA 256 项 。 此 时 , 绝 大 部 分 的 Deltal 表 项 
均 为 0, 算 法 失效 。 

观察 B: 如 果 比 较 方 式 仍然 为 字符 与 字符 的 对 应 比较 ,那么 每 次 比较 必须 和 所 有 特 
征 字 符 串 的 对 应 位 置 上 的 字符 或 字符 块 进行 比较 。 需 要 的 1/O 操作 和 比较 操作 次 数 等 
于 特征 字符 串 数 ,显然 效率 过 低 。 

观察 C: Delta2 表 的 构造 如 果 沿 用 BM 算法 , 则 算法 出 错 。 例 如 ,图 5. 8 中 ,假设 比 
较 单位 的 字符 块 大 小 为 2, 有 2 个 长 度 为 21 字符 的 特征 字符 串 , 如 果 采 用 BM 算法 构造 
Delta2 表 , 则 位 置 :一 17 的 值 D; GO —17 ,而 采用 后 文 提 到 的 HBM 算法 得 到 D; (z) 一 10。 
输入 字符 串 如 图 5. 8 所 示 , 当 第 一 轮 比较 在 位 置 + 失败 时 ,如 果 将 比较 指针 移动 D; (1) 距 
离 后 (如 图 5. 8 中 第 4 行 所 示 ), 则 移动 距离 过 大 , 跳 过 了 本 可 以 匹配 的 字符 串 部 分 ;而 如 
果 将 比较 指针 移动 D; (io 后 ,如 图 5. 8 中 第 5 行 所 示 , 能 够 找到 正确 的 匹配 。 

观察 D: 将 字符 块 作为 基本 单位 时 ,Deltal 表 的 大 小 就 会 急剧 膨胀 。 原 始 的 BM 算 
法 需要 2° = 256 项 ,而 以 2,3,4 个 字符 的 字符 块 作为 基本 比较 单位 的 话 , 则 分 别 需 要 


上 ;互联 网 流量 大 数据 工程 


t 


XXXWabeXXXZqprXXXYabe 
1 1 1 


1 1 1 
XXXWqprXXXZabcXXXYqpr 
1 l | 
| NUM 
1 d=14 [ 


XXXXaaaXXXWqprXXXZabeXXXY gpr … 
XXXXaaaXXXWqprXXXZabceXXXY gpr --- iim 
XXXXaaaXXXWqprXXXZabcXXXY gpr.-- BID) 
图 5.8 Delta2 表 构 造 方式 差异 的 说 明 


2* 二 64K,2* 二 24M,2” 二 4G 项 。 对 于 这 个 问题 ,一 些 算法 如 WM 和 RSI 等 ,采取 了 回 
避 的 态度 ,其 前 提 是 特征 字符 串 数目 不 多 ,采用 2 个 字符 的 字符 块 能 保证 算法 有 效 的 情况 
下 ,直接 存放 64K 项 Deltal 表 。 男 一 些 算 法 如 Setwise BMH 等 ,通过 组 织 特定 的 树 结 
构 , 存 放 Deltal 表 , 但 是 每 次 查 表 ,往往 需要 多 次 的 1/O 操作 ,在 实现 上 有 局 限 性 。 我 们 
提出 的 HBM 算法 则 是 通过 可 碰撞 的 散 列表 来 组 织 Deltal 表 , 每 个 字符 块 在 Deltal KP 
有 不 再 唯一 对 应 一 项 ,而 是 把 字符 块 的 散 列 值 作为 其 在 Deltal 表 中 的 索引 位 置 。 

根据 以 上 观察 ,可 以 了 解 HBM 作为 多 模 匹配 算法 的 主要 特征 如 下 。 

(1) 每 次 比较 的 基本 单位 是 若干 个 字符 (比如 4 个 字符 ) 组 成 的 字符 块 。 

(OD 每 次 对 一 段子 字符 串 的 匹配 是 从 右 向 左 进行 ,一 旦 某 个 字符 块 比较 失败 则 不 用 
比较 剩 下 的 字符 块 ,而 是 根据 启发 式 移 位 表 Deltal 表 和 Delta2 表 向 右 移动 比较 指针 。 

G) 算法 使 用 两 张 启发 式 移 位 表 : Deltal KA Delta2 表 , 充 分 利用 了 蠕虫 特征 码 的 
信息 和 比较 过 的 字符 块 信息 。 

COD 当 某 个 子 字符 串 比较 成 功 后 ,还 需要 和 蠕虫 特征 码 进行 精确 比较 ,才能 确定 其 为 
特征 码 之 一 ,或 是 一 次 误 判 (false-positive) 。 

HBM 算法 主要 包括 初始 化 工作 和 运行 时 工作 两 部 分 。 初 始 化 工作 主要 由 控制 层面 
完成 对 特征 码 的 初始 化 处 理 , 组 织 两 张 启发 式 移 位 表 。 

运行 时 工作 主要 由 完成 网 络 网 包 的 接收 、 分 类 ,扫描 和 转发 功能 。 


5.4.4 HBM 算法 的 初始 化 流程 


1. Deltal 表 的 初始 化 构造 


Deltal 表 构 造 的 算法 如 图 5. 9 所 示 。 算 法 寻找 每 个 字符 块 在 特征 字符 串 最 右 出 现 位 
置 , 据 此 计算 出 “匹配 失败 ?时 至 少 可 以 将 指针 向 右 移 动 的 距离 ,并 将 这 个 “ 移 位 距离 ”记录 
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在 Deltal 表 中 。 和 原 BM 算法 相 比 , 它 有 以 下 不 同 之 处 。 
(1) 比较 的 基本 单位 变 为 字符 块 。 
(2) 字符 块 在 Delal Ae HH SAL BE AL [ota OP 
函数 值 决定 。 E 
(3) 如 果 两 个 字符 块 由 于 散 列 冲突 ,对 应 
Deltal 表 的 同一 项 , 则 此 项 存放 两 者 中 的 较 小 “ 移 | | 
位 距离 ”。 pth then d,(x)-L-b-j 
Deltal 表 的 使 用 也 很 方便 。 在 对 输入 子 字符 ee 
串 的 某 轮 匹配 中 , 记 j 为 已 经 比较 成 功 的 字符 块 ` 
数 ( 即 比 较 最 右 字符 块 时 j= 二 0, 最 右边 第 2 个 字 图 5.9 Deltal 表 构 造 算法 描述 
符 块 时 j= 二 1, 以 此 类 推 )。 判 断 某 次 字符 块 比较 
是 否 成 功 ,只 要 将 此 字符 块 在 Deltal 中 的 值 D, 和 j 进行 比较 。 如 果 Di 三 j, 则 比较 成 
功 , 将 比较 指针 左 移 移 位 ,继续 下 一 个 字符 块 比较 ;如 果 D, 二 j, 则 比较 失败 ,此 轮 匹配 也 
失败 ,可 以 将 比较 指针 向 右 移动 Di 距离 ,开始 下 一 轮 的 匹配 。 
需要 注意 的 是 ,在 HBM 算法 中 ,每 次 比较 Deltal 表 值 时 ,使 用 “三 ”而 不 是 = 二”。 这 
是 由 多 个 特征 字符 串 的 特性 带 来 的 ,和 是 否 采 用 散 列 方式 组 织 Deltal 表 无 关 。 例 如 ， 
图 5. 10 AH T L=8.b=2 的 一 个 例子 ,有 2 个 特征 字符 串 “xxxxxxcd” 和 “xxxxxcda”。 
由 于 字符 块 “da” 和 “cd” 都 是 在 特征 字符 串 最 右 位 置 ,因此 Di (cd) = Dy (da) =0, Ute si 
入 字符 串 的 前 二 个 字符 和 特征 字符 串 2 完全 一 致 ,匹配 过 程 如 下 ,第 一 次 比较 满足 D; 
(da) 志 0, 比较 成 功 ;第 二 次 比较 Di (cd) = 01 lb: Dy (cd) 天 1, 如 果 使 用 , 则 比较 失败 ， 
显然 不 合理 。 这 就 是 为 何 算法 使 用 “三 ”而 不 是 “= 二”。 


for j:=0 to L-b 


X—hsySi jay Sig) 


Deltal 表 
特征 字符 串 1|x |x |x | x| xj x | c | d 
特征 字符 串 2 | x | x | x | x | x | c | d | a 
cd 一 一 | 0 
位 置 0 1 2 3 4 5 6 7 
输入 字符 串 | x | x | x | x| x | c|d|a da—-| 0 
cd da 


图 5.10 Deltal 表 使 用 举例 


2. Delta2 表 的 初始 化 构造 


Delta2 表 构 造 的 基本 思想 也 来 自 BM 算法 ,在 匹配 失败 时 ,根据 之 前 比较 过 的 子 特征 
字符 串 的 信息 ,得 到 至 少 可 以 移动 的 距离 。 介 于 在 多 模 匹配 下 ,Delta2 表 比 Deltal 表 的 
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移植 困难 很 多 , 它 在 很 多 算法 (如 WM, Setwise BMH .RSI 等 ) 中 均 被 忽略 ,而 极 少 有 人 提 
及 。 本 节 将 给 出 一 种 Delta2 表 的 构造 和 使 用 方法 ,作为 HBM 算法 的 一 部 分 。 由 于 和 原 
BM 算法 的 Delta2 表 大 相 径 庭 , 故 不 再 给 出 本 算法 的 改进 说 明 。 

为 了 便于 描述 ， 将 任意 字符 串 pattern = àoaià2 *** ay-is y 充 记 为 pattern 一 … 
$$$$ooaas…ar, 即 Vi<o,aw 一 $。 其 中 $ 为 假想 字符 , 它 和 任何 字符 相等 ,同时 
任何 含有 $ 的 字符 块 ,其 Di 值 为 D,=0。 这 里 对 所 有 特征 字符 串 都 作 了 这 种 扩充 。 

在 给 出 Delta2 表 的 构造 和 使 用 之 前 , 先 给 出 某 个 子 字符 串 “ 相 一 致 ”", 以 及 函数 rpr 
(rightmost plausible reoccurrence) 的 定义 。 

“ 相 一致 ” 指 的 是 特征 字符 串 中 , 某 个 子 字符 串 和 最 右 端 的 子 字符 串 ,它们 的 首 字符 块 
有 不 同 的 特性 ,其 余 对 应 字符 块 则 有 共同 的 特性 。 根 据 5.4. 1 节 的 讨论 ,可 以 发 现 : 特征 
字符 串 的 最 后 几 个 字符 块 的 D, 值 满足 条 件 5-5: 

Dia, aia) <S 0, D, Carotta) S le (5-5) 

因此 , 相 一致 的 子 字符 串 也 要 求 满足 上 述 条 件 。 同 时 ,因为 两 者 的 首 字符 块 特性 不 
同 , 所 以 其 首 字 符 块 在 Deltal 表 中 的 值 要 求 满足 Di 二 k 一 1, 其 中 为 子 字 符 块 的 长 度 。 
形式 化 的 定义 如 下 。 

定义 特征 字符 串 中 的 子 字符 串 C= coc tc, AH BO”. BOR TH LAR HE 5-6: 

VI SiSn—b41,Di licm" cim) Sn—b+1—-i 
a (coerce) > n—b+1 R co = $ 
其 中 ,Di Cecita ttti H PIFI cicir tt cito- Æ Deltal 表 中 的 移 位 值 。 

定义 函数 y — rprCS; D «(€ [0,L 一 6 一 1], 要 求 在 特征 字符 串 S; 中 ,从 位 置 t+ 往 左 
(不 包括 四 ,找到 长 度 为 L 一 t 的 最 右 的 相 一 致 的 子 字 符 串 , 记 此 子 字符 串 为 位 置 k 开始 的 
Sasian t Siate- ABA rpr(Si,t) 二 k 十 1。 算 法 描述 如 图 5.11 所 示 。 

图 5.11 中 为 了 下 面 表述 方便 , 记 函 数 D1(i,7) 为 取 字符 块 sasiaro 1 siaren 的 在 
Deltal 表 的 值 , 即 Di CG, t) — Di Gasiocn t Siate- )。 

在 计算 rpr 函数 之 后 ,可 以 据 此 来 构 在 Delta2 表 。Delta2 表 长 度 固定 为 L 一 5 十 1, 记 
Delta2 表 的 第 1 项 的 值 D,(7), 则 其 值 由 式 (5-7) 求 得 : 

DG) = L—b+1—max,{rpr(S,,t)} (5-7) 
Fh Ot —b—1, max, {rpr(S, t) RAM F r=0.1, 62-1, BGK n A rpr 值 中 的 
最 大 值 。 

为 了 保持 整体 算法 的 简洁 性 ,定义 D CL— b) = 二 1, 也 就 是 rpr CS, L— 5) —L—b., 3X 
样 定义 的 原因 是 ,可 以 保证 在 使 用 D. CL — 0) — 1 时 ,必然 会 有 D; 值 小 于 Di 值 ,也 就 是 
D, (L—b) = 1 不 会 被 使 用 ,因而 对 算法 没有 影响 。 图 5. 12 为 Delta2 表 构 造 的 算法 描述 。 

由 于 Delta2 表 的 构造 和 使 用 比较 复杂 ,其 正确 性 的 详细 证 明 将 在 5. 4. 7 节 中 分 析 ， 
本 节 给 出 了 一 个 例子 加 以 说 明 。 
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1. if 1-L-b then return L-b 
2. ket 
3. if k—(L-b-1) then return k 


end if 
4. if k> 0 then goto 5 


else goto 6 
end if 


5. if( VO r-L-b-t, D'(ik*r)cL-b-t-r)and D' ,(i,k-1)>L-b-t 
then return k 
else goto 7 
end if 
6. if Vrü r«L-b-t*k,D' (ir) «L-b-r-k-r 
then return k 
else goto 7 
end if 
7. k-k-l 
goto 3 


图 5.11 函数 rpr(Si,b 计 算 的 算法 描述 


1. 构造 Deltal 表 
2. Vt , Dy(r)- Infinite max 
3. for i:=0 to n-1 
for (:-0 to L -b 
d*-L-b*d-rpr(Sat); 


if D:(D>d then Da(D) 一 qd 
end if; 
end loop ¢ ; 
end loop i ; 


5.12 Delta2 表 构 造 的 算法 描述 


如 图 5.13 所 示 ,在 工 王 8,0 一 2 的 情况 下 ,假设 所 需要 的 D; 值 已 经 由 图 5. 13 中 的 
Deltal 表 给 出 ,那么 对 于 这 个 特征 字符 串 S, 就 可 以 算出 其 rprC S018. 3f B. E ICE RE 
字符 串 S 的 各 个 rpr 表 项 值 均 为 对 应 的 最 大 值 , 还 可 以 计算 出 了 Delta2 表 的 值 。 

3. 特征 码 散 列表 初始 化 构造 

由 于 HBM 算法 需要 在 成 功 匹 配 时 进行 精确 比较 , 则 合理 组 织 待 匹配 的 特征 码 ,减少 
访问 时 的 1/O 开销 是 必要 的 。 引 擎 实现 中 ,将 特征 码 组 织 成 散 列 链表 方式 ,大 大 减少 了 
1/0 访问 次 数 , 提 高 了 效率 。 
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位 置 t -2 -10 1234567 


HERES Ts s Ta[x[a[e[a[a|c[a 


Deltal 表 


ac 一 一 | 1 


cd 一 一 | 0 


rpr 值 -6-5-4-32 -l … 
可 能 的 Delta2 表 值 13 12 1110 5 8 da—-| 2 
位 置 0 1234567 xa—e| 5 
MARTER JE x[x x[a cla dx 一 一 | 6 
de cd dc 一 一 | 2 
指针 右 移 位 数 为 D,(5)=8 
图 5.13 Delta2 表 的 构造 和 使 用 举例 
其 示意 图 如 图 5. 14 所 示 。 
索引 号 | 特征 码 | e —À1——— 特征 码 
NULL — [xm 
索引 号 | 特征 码 * 一 二 一 一 特征 码 | NULL 
NULL 未 用 
NULL 未 用 


索引 号 | 特征 码 | NULL 


索引 号 | 特征 码 * 一 上 一 一 特征 码 


NULL 


E 


图 5.14 散 列 链表 结构 示意 图 


特征 码 | NULL 


在 实现 散 列 存储 的 时 候 , 也 需要 一 个 散 列 函 数 六 (Se) 对 每 个 特征 码 计算 索引 号 ,此 
散 列 函 数 可 以 是 一 些 标准 的 散 列 计算 方法 (如 MDS 等 ) ,也 可 以 是 简单 的 逻辑 运算 从 而 


加 快 处 理 速 度 。 算 法 描述 如 图 5.15 所 示 。 


l.for i=0ton-l 
entry*-hS;) 
认 索 引号 为 en 项 未 用 
then 加 入 S ， 指 针 标 记 改 为 NULL 


else 在 index 处 的 链表 尾 加 入 S; 


endif 
end loop i; 


图 5.15 特征 码 的 散 列 链表 构造 
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5.4.5 HBM 算法 运行 流程 


记 输 入 的 字符 串 为 String, 记 第 i 个 字符 为 str (让 ,i 二 0,1,…; 记 从 第 i 个 字符 开始 的 
字符 块 在 Deltal $F WAND, G) | BED; G) =d; (h(strG) «strGio-1) s strGid-b—1)). 
运行 时 的 算法 流程 描述 如 图 5. 16 所 示 o 


1. 构造 Deltal 表 ; 
构造 Delta2 表 ; 
i--L-btl 
2. if i> sizeof (string) then return search failed 
end if 
3.j—0 
4. if D\(i) >j then goto 9 
end if 
5. if j>L-b then goto 7 
end if 
Gisti 
JP; 
goto 4 
7. Precisely Comparison of str (i)str(i1):-*str (i-L-1) 
if Match then return search succeeding 
end if 
8. i—iL-b32; 
goto 2 


9. i—i+max (DG) DXL-b-j)); 
goto 2 


5.16 HBM 运行 时 算法 流程 描述 


在 上 述 算 法 流程 描述 中 ,第 3 步 至 第 6 步 表示 对 输入 的 子 字 符 串 的 一 轮 匹 配 。 当 第 
4 步 的 条 件 不 满足 时 ,表示 此 次 比较 成 功 , 可 以 继续 比较 当前 位 置 左 侧 的 字符 块 ; 当 第 4 
步 的 条 件 满足 时 ,说 明 本 次 比较 失败 ,因而 本 轮 的 匹配 也 失败 ,可 以 将 比较 指针 i 向 右 移 
动 max(Di G) «D; (一 0 一 力 } 位 ,然后 再 继续 对 新 的 子 字符 串 进 行 下 一 轮 匹 配 ; 当 第 5 步 
的 条 件 满足 时 ,表示 输入 子 字符 串 的 每 个 字符 块 均 比 较 成 功 ,也 就 是 本 轮 匹 配 成 功 。 但 是 
有 可 能 出 现 “ 伪 匹配 成 功 ”( 也 称 为 误 判 ,false-positive) 的 情况 ,还 需要 和 特征 字符 串 进行 
精确 比较 ,才能 最 终 确 定 是 否 真正 匹配 成 功 ( 见 第 7 HB), 
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伪 匹 配 成 功 的 发 生 , 是 由 多 模 匹配 (多 特征 字符 串 ) 本 身 特 性 带 来 的 ,和 是 否 采用 散 列 
WREK. F ifie HB. 24 L —4.50—2.n —3 的 情况 下 ,3 个 特征 字符 串 的 分 别 是 
“zzab”“zzbc” 和 “zzcd”, 所 以 字符 块 *ab”“bc” 和 ”cd” 在 Deltal 表 中 的 值 D; (ab) — Di 
(pc) 一 Di(Ccd) 一 0。 因 而 , 当 某 一 轮 的 输入 子 字符 串 为 "abcd” 时 ,此 轮 的 每 次 比较 都 将 成 
功 , 但 是 子 字 符 串 “abcd” 却 不 是 任何 一 个 特征 字符 串 , 本 轮 匹配 是 一 次 伪 匹 配 成 功 。 

此 外 , 当 发 生 伪 匹 配 成 功 时 ,如 果 一 一 比较 所 有 的 特征 字符 串 ,那么 W/O 访问 操作 的 
开销 将 会 很 大 。 因 此 ,可 以 将 所 有 特征 字符 串 以 散 列 链 表 方 式 存放 ,从 而 减少 精确 比较 时 
需要 进行 的 1/O 访问 操作 。 这 是 对 于 上 述 算法 第 7 步 精确 比较 的 一 点 补充 。 


5.4.6 HBM 算法 在 多 核 平 台 上 的 优化 


将 HBM 算法 在 多 核 平 台 上 做 了 实现 ,充分 利用 了 多 核 的 体系 结构 特点 优势 ,从 而 达 
到 了 较 好 的 吞吐 率 性 能 。 

分 层 的 存储 结构 有 利于 发 挥 散 列 算法 的 特性 ,减少 1/0 操作 的 时 间 开 销 。 可 以 将 
HBM 算法 中 的 Deltal 表 和 Delta2 表 放 入 缓存 中 ,因此 算法 的 L/O 操作 的 时 间 开 销 可 以 
大 大 降低 。 如 果 不 使 用 散 列 方式 的 算法 ,即使 是 以 2 个 字 节 作 为 字符 块 , 也 需要 至 少 16K 
大 小 的 Deltal 表 ,无 法 放 入 处理 器 本 地 内 存 , 只 能 存放 于 更 慢 速 的 SRAM 或 DRAM, M 
而 增加 了 系统 的 1/O 开销 。 

HBM 算法 中 没有 复杂 的 数学 计算 运算 ,比较 适合 通用 多 核 平台 的 指令 结构 。 由 于 
通用 多 核 平 台 的 优势 在 于 网 络 网 包 处 理 过 程 , 它 并 没有 提供 复杂 的 通用 计算 指令 ,而 
HBM 算法 可 以 将 散 列 运算 用 与 或 操作 完成 ,不 需要 复杂 的 乘除 指令 支持 ,很 好 地 适应 了 
通用 多 核 平台 。 

1. 功能 模块 图 

图 5.17 给 出 了 多 核 平台 上 实现 的 匹配 引擎 Demo 的 功能 模块 图 。 网 络 网 包 接 收 模 
块 (Packet RX) 从 以 太 网 接口 上 收 到 的 网 包 内 容 存 人 DRAM, 将 网 包 信 息 通过 一 个 
Scratch Ring 传 给 HBM 过 滤 模 块 ,过 滤 模 块根 据 网 包 信息 ,从 DRAM 中 取出 网 包 载 荷 
内 容 并 进行 扫描 ,将 通过 检测 的 正常 网 包 信息 通过 另 一 个 环 的 结构 传 给 转发 模块 (Packet 
TX) ,而 对 于 包含 蠕虫 特征 代码 的 危险 网 包 , 过 滤 模块 进行 记录 并 发 出 警告 。 

2. 存储 单元 的 分 配 


如 表 5.2 所 示 , 将 HBM 算法 中 的 Deltal 表 和 Delta2 表 放 入 缓存 中 ,特征 字符 串 集 
合 则 存放 在 DRAM 存储 器 中 。 在 DRAM 中 ,除了 保留 一 份 原始 特征 字符 串 集合 的 副本 
外 ,将 这 些 特 征 字符 串 组 成 散 列 链表 的 方式 ,这 样 在 进行 精确 比较 的 时 候 可 以 有 效 减 少 
1/0 操作 次 数 。 
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XSCAL core Initialize 


了 
Deltal Table 
Filter with 
Hash BM 1 
Deltal Table 
— — — Dela? Table | 
Filter with 
Hash BM 1 
S n Deltal Table 
性 >| Packet Rx O A Dele Table Packet Tx |» 
Filter with 
Hash BM i 
Delta! Table 
Filter with — 
Hash BM 
图 5.17 HBM 算法 在 多 核 通用 多 核 平台 平台 上 的 功能 模块 图 
表 5.2 各 数据 结构 在 系统 中 的 存放 位 置 
存放 内 容 存放 空间 存 取 速 度 
Deltal 表 Cache 快 
Delta2 表 Cache 快 
原始 特征 字符 串 集合 DRAM 中 顺序 存放 慢 
结构 化 的 特征 字符 串 集合 DRAM 中 散 列 链表 方式 存放 慢 
3. 优化 小 结 


综 上 所 述 ,本 章 在 上 实现 HBM 多 模 匹配 算法 时 ,主要 的 优化 如 下 。 

(1) 将 Deltal 和 Delta2 这 两 张 访问 频率 较 高 的 表 , 存 放 在 1/O 存 取 速度 快 的 存储 单 
元 ,而 对 于 访问 频率 低 的 特征 字符 串 集 合 存放 在 存 取 速 度 慢 的 单元 。 

C2) 将 特征 字符 串 组 织 成 散 列 链表 的 方式 ,减少 精确 匹配 时 的 1/0 操作 次 数 。 

G) 对 于 输入 网 包 的 载荷 进行 预 读 取 功 能 ,减少 1/0 操作 次 数 。 由 于 无 论 读 取 字 节 
的 多 少 , 对 于 DRAM 的 一 次 1/0 操作 所 花费 的 时 间 相 近 ,过 滤 引 擎 对 于 输入 的 网 包 载 荷 
每 次 预 读 入 最 大 的 64 个 二 进 制 字符 。 在 一 轮 匹配 失败 ,需要 移动 比较 指针 时 ,判断 目的 
指针 位 置 的 字符 块 ,是 否 已 经 超过 预 读 入 的 最 后 一 个 字符 块 。 如 果 没 有 超过 , 则 依然 可 以 
从 上 次 预 读 入 的 字符 中 得 到 本 轮 匹 配 的 子 字符 串 , 省 去 了 一 次 1/0 操作 ,如 果 超 过 , 则 必 
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AENEA. 
5.4.7 HBM 算法 的 证 明 与 分 析 


1. HBM 算法 证 明 


HBM 算法 的 正确 性 ,主要 包括 Deltal 表 的 正确 性 、Delta2 表 的 正确 性 和 精确 比较 部 
分 的 正确 性 三 部 分 。 其 中 ,精确 比较 部 分 的 正确 性 是 显而易见 的 ,而 Deltal 表 基 本 沿用 
了 BM 算法 的 思路 ,只 是 使 用 散 列 函数 加 以 改造 ,也 比较 简单 。 因 此 ,这 里 主要 讨论 
Delta2 表 的 正确 性 的 证 明 。 

对 于 Delta2 表 的 正确 性 ,本 章 采 用 反 证 法 证 明 。 在 上 述 算 法 中 需要 用 到 Delta2 表 的 
值 的 只 有 在 第 9 步 。 在 第 9 步 或 第 7 步 移 动 指 针 守之 前 ,本 轮 的 是 在 判断 字符 串 String 
中 第 ;7 一 人 十 0 一 1 个 的 字符 到 第 ;十 7 十 0 一 1 个 的 字符 是 否 为 特征 字符 串 。 同 时 , 当 第 
9 步 需 要 移动 指针 i 时 ,如 果 Deltal 表 项 值 大 于 Delta2 表 项 值 , 则 算法 的 进行 和 Delta2 
表 无 关 。 为 了 证 明 Delta2 表 的 正确 性 ,不 妨 再 假设 此 时 Delta2 表 项 值 较 大 。 

证 明 : 

反 设 第 9 2b i=i ,此 时 ii 十 D: (一 0 一 力 移 动 的 距离 过 大 ,导致 错误 。 即 了 ,0 去 
r— Di QG.—b— j) strGisd- rd- j - L4-b— 31) ,str(i 十 > 十) 十 0 一 1) 完 全 等 于 某 个 特征 字 
FEE S,. Delta2 表 的 正确 性 证 明示 意图 如 图 5. 18 所 示 。 


0 L-b-j-r L-r4 LA 
S, 
igtrtj-L+b | 1 itrtjtb-l 
I 1 
Ss 1 
1 1 
I LI [ITI [I] 
mor 
igti-L+b d igt+b-1 
下 次 比较 
Le 
igtj+D(L-b-j)-L+b igtj*DXL-b-jy-b-1l 


图 5.18 Delta2 表 的 正确 性 证 明示 意图 


由 假设 可 知 ,输入 字符 串 的 io 到 i 十 j 十 6 一 1 位 置 字符 ,相当 于 特征 字符 串 S, 中 的 

L 一 b 十 1 一 j 一 r 到 LL 一 r 位 置 的 字符 。 由 于 此 时 执行 至 算法 第 9 步 产 生 i. Vt,L 一 6 一 
j 一 r 达 tL 一 r 一 1( 即 图 5.18 阴影 部 分 为 “ 相 一 致 ”的 子 字符 串 ) ,满足 条 件 式 (5-8)。 

oe <L—r—t 


(5-8) 
d,Gi,L—b—j—n >j—b 
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所 以 ,计算 rpr 函数 : 
mr(SL—60—D) LL-D)—(L-—r—D=r (5-9) 
从 而 ,得 到 Delta2 值 满足 : 
D:(L—b— j) S rprCS, 4L —b—j) <r (5-10) 


与 假设 的 r<D, (Lb jF JA , 原 假 设 不 成 立 ,Delta2 表 构 建 的 正确 性 证 毕 。 

2. HBM 算法 解析 分 析 

本 节 主 要 讨论 HBM 算法 的 效率 ,包括 如 下 。 

(1) 给 出 Deltal 表 平 均 移 位 距离 的 计算 方式 , 即 给 出 此 算法 的 时 间 性 能 的 主要 计算 
方法 。 

(2) 给 出 Deltal 表 的 平均 移 位 距离 和 大 小 的 关系 ,能 够 合适 选择 存储 容量 来 达到 较 
好 的 时 间 性 能 。 

(3) 给 出 使 用 Delta2 表 的 概率 ,可 以 看 到 Delta2 表 的 使 用 效率 不 高 。 

(4) 给 出 伪 匹 配 概率 , 即 给 出 了 额外 的 时 间 开 销 计算 。 

1) 平均 移 位 距离 分 析 

HBM 算法 的 移 位 距离 是 指 每 当 比 较 失败 后 算法 的 平均 移 位 距离 , 它 主 要 由 Deltal 表 
和 Delta2 表 中 值 决定 。 

一 方面 ,在 HBM 算法 中 ,每 次 的 字符 块 的 比较 ,是 通过 将 Deltal 表 项 的 值 和 当前 移 
动 位 置 j 来 实现 的 ( 见 算法 第 4 步 )。 因 此 ,如 果 Deltal 表 的 平均 移 位 距离 很 小 , 则 通过 
这 种 Hash 方式 比较 , “成功” 的 概率 很 大 ,需要 比较 次 数 增加 ,从 而 大 大 降低 了 算法 的 
效率 。 

另 一 方面 ,在 HBM 算法 中 , 当 一 次 字符 块 的 比较 失败 后 ,可 以 向 后 移动 指针 的 距离 
也 是 由 Deltal 表 和 Delta2 表 两 者 共同 决定 的 。 

因此 ,HBM 算法 中 平均 每 个 字符 消耗 的 时 间 为 


texact—comp 。 P. false— positive. 


Tau le * Che T = 
distance; 


Loup F terace-comp * Püke-posiive (5-11) 
distance. 


其 中 ,twomo 是 一 次 字符 块 比较 所 消耗 的 时 间 ,cow 是 对 于 每 个 字符 平均 需要 的 比较 次 数 ， 
tower_comp 是 精确 比较 需要 消耗 的 额外 时 间 , Poposswe 是 误 判 概率 ,distancecoms 每 当 比 较 失 
败 后 算法 的 平均 移 位 距离 。 

因为 tomp tasa coss 是 受 系统 IO 和 数据 结构 影响 的 常量 值 ,所 以 Pase positive 和 
distancecoms 就 成 为 影响 系统 性 能 的 主要 参数 。 

从 HBM 算法 描述 中 可 以 看 出 ,Delta2 表 的 构造 需要 用 到 Deltal 表 的 表 项 值 ,其 表 
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项 值 受到 Deltal 的 平均 表 项 值 一 一 移 位 距离 的 影响 。 而 且 ,本章 将 在 接 下 来 的 几 节 中 进 
行 解析 分 析 , 可 以 得 出 Delta2 表 项 值 的 使 用 概率 比 Deltal 表 多 , 即 Delta2 表 对 算法 平均 
移 位 距离 的 影响 相对 于 Deltal 表 而 言 低 很 多 ,并 给 出 Deltal 表 的 平均 移 位 距离 计算 、 
Deltal 表 的 空间 大 小 选择 、 整 体 算法 的 平均 移 位 距离 等 。 

(1) Delta2 表 的 使 用 概率 。 

这 里 指 的 Delta2 表 的 使 用 概率 是 当 发 生 移 位 时 ,采用 Delta2 表 而 不 采用 Deltal 表 
的 值 的 概率 ,也 就 是 此 时 D, — Di, 。 对 于 特殊 情况 D= D; ,也 就 是 当 发 生 移 位 时 ,Deltal 
和 Delta2 表 的 移 位 距离 相等 ,使 用 哪个 表 的 值 相同 ,此 时 假定 使 用 Deltal 表 的 值 (因为 ， 
这 种 情况 下 ,如 果 没 有 Delta2 表 存 在 ,依然 可 以 仅 依靠 Deltal 表 得 到 最 大 的 移 位 距离 ) 。 

从 仿真 实验 中 ,也 可 以 看 到 移 位 时 ,使 用 Delta2 表 的 概率 的 确 远 小 于 使 用 Deltal 表 
的 概率 。Delta2 表 的 使 用 概率 很 难 求 得 精确 解 ,下 面 尝试 给 出 Delta2 表 的 使 用 概率 的 近 
似 范 围 。 

从 仿真 实验 发 现 ,Delta2 表 的 最 后 几 项 很 可 能 出 现 D. (L—5— j) —j-- 1. fj hn Sew 
HOLE. L=32,6=4,n=512.m=640 X 6 =3840,Delta2 表 产 生 情 况 如 表 5. 3 所 示 。 


表 5.3 Delta2 表 举例 


L—b—j 0 a 19 20 21 22 23 24 25 26 27 28 


D;G.—b5—j) 39 sh 23 16 8 10 6 5 4 3 2 1 


此 时 ,如 果 移 位 发 生 在 最 后 6 个 位 置 时 ,D: 和 Di ,都 不 可 能 使 用 Delta2 表 。 如 果 要 使 
用 Delta2 表 , 则 必须 首先 满足 D; (L—b—j) >j +1, 5.3 中 工 一 0 一 /一 22 的 情况 ,此 
时 D:(22) 王 10, 才 有 可 能 用 到 Delta2 表 。 现 在 根据 这 条 思路 ,给 出 了 表 5. 4, 来 计算 
Delta2 表 使 用 的 概率 的 上 下 界 。 


表 5.4 Delta2 表 使 用 的 概率 的 上 下 界 计算 


比较 成 功 次 数 j 次 时 发 生 移 位 此 时 发 生 移 位 的 概率 此 时 使 用 Delta2 表 的 概率 
j=0 P(j=0)=a 0 
j=l PGj=1)=(1—a) + a? bitqi A pi 之 间 
j=2 PG 一 1) 一 (1 一 ac)。(1 一 a2)。a3 p: * Qe 和 p. 之 间 
jmi | 


其 中 ,k=L-6,a= (1 一 去 】 ii 表示 发 生 移 位 时 ,Delta? 表 的 值 De (L—b—j) >j+ 


m 
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1 的 概率 ;gs 表示 发 生 移 位 时 ,Deltal 表 的 值 D; Cx) —;--1 的 概率 。 综 上 可 知 : 
CD 当 使 用 Delta2 表 中 的 移 位 值 时 ,必然 有 Delta2 表 的 值 D; CL—5—j) 2 j--1. Hl 
k 
YPG =i) + p, 是 使 用 Delta? 表 中 的 移 位 值 的 概率 的 上 界 。 
i=1 
© 当 Delta2 表 的 值 D.(L—b—j) >j+1.3# B. Deltal 表 的 值 Di (x) =j +1 It, D> 
k 
D, ,必然 使 用 Delta2 表 中 的 移 位 值 , 即 >) PG — D + pi + qe 是 使 用 Delta2 表 中 的 移 位 值 
i=l 
的 概率 的 下 界 。 
所 以 ,Delta2 表 的 使 用 概率 在 Drg- —D*ptq 和 PO = =)+p 之 间 。 


这 里 ,没有 出 现 特征 字符 趾 长 度 L 和 字符 块 大 小 5 DI RE k BEC PG — 10 
小 ,非常 接近 0. Delta2 表 的 使 用 概率 主要 取决 于 上 述 多 项 式 中 靠 前 的 几 项 。 因 此 ,特征 
字符 串 达到 一 定 长 度 后 ,Delta2 表 的 使 用 概率 基本 是 相同 的 。 

P(j 二 &) 的 计算 比较 简单 ,在 此 不 做 展 看 讨论 了 。 

对 q 的 计算 ,由 于 移 位 是 发 生 在 j=k 的 情况 下 ,必然 有 Di(z) 三 ) 十 1, 则 Di (a) = 
j--1 的 概率 相同 , 即 一 一 一 gr, 记 其 为 g, 则 g=1 一 (1 一 二 】 一 1 一。 


对 p, 的 计算 ,要 得 到 D,(L 一 6 一 站 之 j 十 1, 必 须 使 得 所 有 特征 字符 串 中 ,从 工 一 5 一 
j 一 1 开始 的 字符 串 不 满足 相 一 致 (就 是 当前 位 置 向 左 一 位 开始 的 字符 串 不 满足 相 一 致 ) 。 


所 以 ， 
(HM 


ne] 
sae cal aw ome) dal ae Pp 
[ 


1 一 (1 一 a)。(1 一 a2)。a3]"; 


M [1— —2) * (1-40 —a*) eat}; 
ape Fm p= 1-7 (172) ] p (172) E B] ]- 
考察 某 个 特征 字符 串 S,, 从 工 一 一 j 一 1 开始 的 字符 串 是 否 相 一 致 。 首 先 ,对 于 最 后 

一 个 字符 块 , (1 一 万 】 表示 所 有 特征 字符 叫 的 最 后 一 个 字符 块 和 其 不 发 生 散 列 碰撞 的 梳 


率 ,也 就 是 其 Di (ft D, >0 的 概率 , 则 [1 一 (1 一 吉 】] 直 示 其 D, 值 满足 D,<0 的 概率 ; 同 


理 [1 一 (1 一 去 】 ] 表 示 倒数 第 二 个 字符 块 ,其 D 值 满足 Di 的 概率 ; [1 一 志 ] 表示 
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倒数 第 三 个 字符 块 ,其 D 值 满足 Di >2。 因 此 , p 077] ]  p- (172) - 
[171] 表示 工 一 6 一 j 一 1 一 L 一 6 一 3 开始 的 字符 串 满足 相 一 致 ,也 就 是 对 于 这 个 特征 字 


符 串 S, ,D; ( 工 一 5 一 力 一 ) 十 1 一 3。 

所 以 ,ps 表示 对 于 所 有 的 个 特征 字符 串 , 均 不 满足 D,(L 一 6 一 ))==j 十 1( 也 就 是 D 
(LL 一 b 一 门户 j 十 1) 的 概率 。 在 此 情况 下 ,Delta2 表 中 存放 的 D» (ON n 个 特征 字符 串 算 
出 的 每 个 D, 值 中 最 小 的 ,那么 同样 有 Ds(L 一 6 一 站 之 j 十 1。 


k k 
由 以 上 分 析 知 ,Delta2 表 的 使 用 概率 在 DPG =D e pea =q DPG p 
i=l tut 


k 
A>) PG =i) + p ZW, 如 图 5. 19 所 示 (x 一 512) 。 


i=1 


-3 
a — 
一 一 - upper bound 
x —— lower bound 
5r ZON 4 
/ \ 
/ \ 
/ È 
"n \ 4 
3 i Y 
2 
NM 
2 } \ 
© 3h t iN 4 
g t N 
El i x 
B 1 N 
gap | Pa 
J Wes 
了 TS 
1 e es 
Lf Ew ~~- 
1 1 T 


9 10 12 14 16 


N 
上 
a 
oo 


0 
5.19 n—512 时 ,Delta2 表 使 用 概率 与 m/n 的 关系 图 


由 图 5. 19 TA, “4 m/n 增 大 时 ,Delta2 表 的 使 用 概率 先 随 之 增加 ,再 随 之 降低 。 起 
先 增加 的 原因 是 , 当 Deltal 表 增 大 时 , 散 列 碰撞 减少 ,Delta2 表 的 平均 移 位 距离 增加 ,使 
得 Delta2 表 的 利用 率 增 加 。 之 后 减 小 的 原因 是 , 随 着 Deltal 表 的 增 大 ,Deltal 表 的 平均 
移 位 距离 变 大 ,在 移 位 时 用 到 Deltal KAF Delta? 表 的 移 位 距离 ,使 得 Delta2 表 的 利用 
率 减 少 。 

同时 ,Delta2 表 的 使 用 概率 不 高 ,在 n= 512 的 情况 下 ,最 大 的 使 用 概率 也 不 到 126. 
并 且 由 解析 表达 式 知 , 随 着 n 的 增 大 (假设 保持 m/n 不 变 ),Delta2 的 使 用 概率 是 逐渐 下 
降 的 。 因 此 ,在 HBM 算法 中 ,性 能 可 以 主要 靠 Deltal 表 中 的 平均 移 位 距离 来 分 析 , 这 也 


第 5 章 互联 网 流量 攻击 检测 关键 技术 (0139) 


是 以 下 内 容 分 析 的 重要 根据 。 

(2) Deltal 表 的 平均 移 位 距离 。 

由 分 析 可 知 , Deltal 表 的 平均 移 位 距离 是 决定 算法 平均 移 位 距离 的 主要 矛盾 。 
Deltal 表 的 平均 移 位 距离 越 大 , 则 算法 时 间 效率 越 高 。 同 时 由 于 Deltal 表 采 用 允许 碰撞 
的 散 列 表 方式 构造 ,其 平均 移 位 距离 和 表 的 大 小 有 很 大 关系 ,下 面 将 分 析 Deltal 表 中 平 
均 移 位 距离 与 Deltal 表 空 间 大 小 的 关系 。 

记 特 征 字符 串 数 为 n ,长度 为 L, 块 大 小 为 5,Deltal RKEW m. 

考虑 Deltal 表 中 某 一 项 ,对 于 任 一 长 度 为 5 的 字符 块 ,其 散 列 值 落 在 Deltal 表 中 此 


项 的 概率 是 一 二 (假设 散 列 丙 数 的 结果 均匀 分 布 ), 则 平均 移 位 距离 为 


distancepe = 1 * p *0(1— 52 * p* 0c --(1— p) * pO 
Tü-"*p-1c-ü—prü + pelt-+(1—p)*' «pel 


+ (1 p) pe (L—b) +A — py « ps (L—b) 
ee Ed py et vw b) 
+a pL 540 


L-b nl 


= (0—pyqobsrp-»)»-)-p.i (5-12) 


i=0 j=0 


式 (5-12) 右 边 的 多 项 式 第 一 项 ,表示 第 一 个 特征 字符 串 的 最 后 长 度 为 上 的 字符 块 ,如 
果 散 列 值 落 在 Deltal 表 中 此 项 , 则 此 项 存放 0 值 。 之 后 的 项 含义 类 似 , 分 别 考察 接 下 来 
的 每 个 特征 字符 串 的 最 后 一 个 字符 块 ,所 以 第 一 行 遍历 了 所 有 特征 字符 串 的 最 后 长 度 为 
2 的 字符 块 ,也 即 得 到 了 Deltal 表 中 此 项 为 0 的 概率 。 同 理 , 计 算 Deltal 表 中 此 项 为 1,2 
直至 L 一 b 的 情况 。 多 项 式 的 最 后 一 项 是 所 有 特征 字符 串 的 字符 块 都 不 出 现 的 情况 ,此 
时 Deltal 表 中 此 项 为 L 一 5b 十 1。 


a= a-pr- (17 LJ ,化 简 式 (5-12) 得 到 式 (5-13)， 


L-b 
distancépaa = a’ 。 人 (全 一 5 十 1) 十 (1 一 a) ya’ i 
i=0 


-bt2 


= = 
=a (5-13) 
"—— = IY - j)y€ 2» 
在 m 较 大 的 情况 下 ,a 可 以 近似 化 简 为 a 一 (1 一 友 ] -(-i) xet, 
m m 
此 时 ， 
distancepua ine ais (5-14) 


1 


em 
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由 式 (5-14) 可 知 , 当 Deltal 表 较 大 时 ( 即 m 比较 大 ) ,为 了 达到 相同 的 平均 移 位 距离 ， 

m 5j n 基本 成 正比 例 关 系 ,因此 ,只 需要 考虑 平均 移 位 距离 和 两 者 比值 的 关系 。 记 xz 为 
Deltal 表 大 小 m 与 特征 字符 个 数 的 比值 。Deltal 表 平均 移 位 距离 distancepam 与 xz 的 
关系 如 图 5. 20 所 示 。 
50 


45 


L-b+2-8 
一 一 一 L-b+2=16 
一 一 - L-b+2=32 
一 一 L-b+2=64 


shift 
m 
a 


20 40 60 80 100 120 
图 5.20 Deltal 表 的 平均 移 位 距离 与 m/n 的 关系 


直观 上 来 说 ,就 是 随 着 特征 字符 串 长 度 的 增加 ,Deltal 表 需 要 的 空间 也 需要 逐渐 增 
加 ,从 而 能 够 减少 散 列 碰 撞 的 概率 ,增加 平均 移 位 距离 ,进而 提高 算法 的 时 间 效 率 。 

同时 由 图 5. 20 可 知 , 随 着 两 者 比值 的 增 大 ,平均 移 位 距离 也 随 之 增加 ,但 增长 速度 逐 
渐 减 缓 。 对 于 工 一 十 2 较 小 的 下 面 3 条 曲线 来 说 , 当 m/n > 40 以 后 , 随 着 空间 增 大 ， 
Deltal 表 的 平均 移 位 距离 的 增长 微乎其微 。 也 就 是 说 ,在 这 种 情况 下 ,只 需要 消耗 较 小 空 
间 存 放 Deltal 表 就 能 达到 相近 的 效率 。 

(3) Deltal 表 的 大 小 的 选择 。 

回顾 本 章 提 到 的 几 种 多 模 匹配 算法 ,虽然 同样 采用 了 BM 算法 的 思想 ,但 是 由 于 不 使 
用 散 列 方式 (前 面 的 解析 分 析 也 同样 适合 ),m 的 大 小 只 可 能 有 固定 的 几 种 取 值 ,哪怕 仅 
使 用 最 小 的 2 个 字符 的 字符 块 作为 比较 单元 ,Deltal 表 的 大 小 也 将 达到 m=65 536 项 ,如 
果 此 时 特征 字符 串 数 目 为 n= 二 512, 那 么 m/n—128. PH ES 5. 20 可 知 ,这 种 方式 的 空间 效率 
是 非常 低 的 。 

由 微 积 分 可 知 , 此 算法 的 时 间 空间 效率 平衡 的 最 佳 的 点 在 曲线 的 拐点 (2 阶 导 数 为 
0)。 也 就 是 在 此 点 之 前 , 随 着 空间 的 增加 ,时 间 效 率 的 增加 越 来 越 快 ;而 在 此 点 之 后 , 随 着 
空间 的 增加 ,时 间 效 率 的 增加 越 来 越 慢 , 乃 至 趋 近 于 0。 而 这 种 减缓 得 趋势 随 着 L 一 5 十 2 
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的 增加 而 减 小 。 

此 曲线 的 拐点 可 以 通过 数值 方式 解 得 ,下 面 给 出 了 拐点 处 的 二 值 ( 即 m/m) Lb 
2 之 间 的 关系 图 。 由 图 5. 21 可 知 ,这 个 时 空 效 率 平衡 的 最 佳 点 , 随 着 L 一 6 十 2 的 增加 , 基 
本 上 成 线性 增长 。 


最 佳 时 空 效 率 下 m/n 和 特征 字符 申 长 度 及 块 长 度 L-b+2 的 关系 图 


12 
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图 5.21 根据 Deltal 表 选 择 m/n S L—b2 关系 图 


(4) 算法 的 平均 移 位 距离 。 
算法 的 平均 移 位 距离 distancecows 可 以 通过 表 5. 5 计算 。 


表 5.5 移 位 发 生 时 的 平均 移 位 距离 表 


j Possibility of skip happening Skip distance 
j=0 P(j=0)=a skipo 
jmi PGg-D--e + a skip, 
j=2 P(j=2)=(1—a) 。(1 一 a2) .a skip, 
j=k P(j=k)=(1—a) * (1a?) + (1—a*) * a! skip, 
match P(match) = (1—a) * (1745): (1—a**! ) 1 


其 中 ,j 在 移 位 发 生前 已 经 成 功 比 较 的 次 数 & 二 L 一 5,P(j 二 让 是 此 时 发 生 移 位 的 概 
率 ,skipi(i 二 0,1,…,k) 是 此 时 的 平均 移 位 距离 。 当 仅仅 考虑 Deltal 表 而 忽略 Delta2 表 
时 , 平均 移 位 距离 distancewms( 见 图 5.22) 可 以 近似 计算 得 到 式 (5-15): 
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图 5.22 算法 平均 移 位 距离 与 m/n 关系 


同样 ,用 类 似 上 一 小 节 的 方法 ,可 以 根据 平均 移 位 距离 ,来 选择 性 价 比 最 高 的 情况 下 
的 参数 m/n 的 近似 值 , 如 图 5. 23 Bros o 
6 


min 
w 


N 


MET) 15 20 25 30 35 40 45 50 55 60 
L-b 


图 5.23 根据 平均 移 位 距离 表 选 择 m/n S L—b--2 关系 图 
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图 5.24 给 出 了 HBM 算法 和 WM, AC 算法 的 平均 移 位 距离 比较 。 就 性 能 来 说 ， 
WM 算法 的 最 佳 情况 和 HBM 算法 相差 不 多 ,但 是 WM 算法 无 法 动态 改变 启发 式 移 位 表 
的 空间 大 小 ,所 以 其 平均 移 位 距离 是 成 阶梯 形 增 长 的 , 即 每 次 跃 变 发 生 在 字符 块 大 小 的 改 
变 ( 如 字符 块 单位 由 2B 变化 为 3B 时 ) ,因此 不 像 HBM 算法 那么 灵活 。AC 算法 采用 的 
匹配 思路 不 同 ,因此 ,其 平均 移 位 距离 总 是 1。 
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图 5.24 HBM、WM 和 AC 算法 的 平均 移 位 距离 比较 


2) 误 判 概率 分 析 

由 于 在 多 模 匹配 的 算法 下 , 当 一 次 比较 完全 “成 功 匹 配 ”" 后 ,还 需要 进行 精确 匹配 。 如 
果 精 确 匹配 发 现 不 符合 任何 一 个 特征 字符 串 , 则 称 此 次 匹配 为 “ 伪 匹 配 ”, 也 称 为 误 判 。 

不 论 是 否 使 用 散 列 方法 ,这 种 精确 匹配 都 存在 。 因 此 ,计算 需要 进行 这 种 精确 匹配 的 
概率 显得 必要 。 对 于 任意 随机 的 二 进 制 字 节 流 , 某 次 比较 出 现 误 判 的 概率 为 式 (5-16): 


roe ee r oli) 8 
Tip (1 zy] 2 (5-16 
上 式 连 乘 的 第 ) 个 因子 表示 第 / 次 的 字符 块 比 较 成 功 ,后 面 减 去 的 项 表示 精确 比较 
成 功 ( 即 此 次 是 个 真正 的 特征 字符 串 ) 。 


在 一 般 情况 下 , 盘 项 可 以 忽略 ;同时 ,在 较 大 的 情况 下 ， (-2y=(1-3) ~ 
e-。 出 现 误 判 的 概率 可 以 近似 为 式 (5-17) : 
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Pu posiive ~ [] [1 一 es] (5-17) 
j=1 
id x JJ Deltal RK) m 与 特征 字符 个 数 n 的 比值 。 则 出 现 误 判 概率 Pise- positive I c 
的 关系 如 图 5. 25 所 示 。 
特征 字符 串 长 度 不 同时 的 false-positive 概 率 图 
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false-positive 概 率 


e 


图 5.25 特征 字符 串 长 度 不 同 是 的 伪 匹 配 概 率 图 


由 图 5. 25 可 知 , 当 字符 串 长 度 达 到 一 定 长 度 后 ,false-positive 概率 基本 相同 , 即 主要 
取决 于 连 乘 式 的 前 几 项 。 
图 5. 26 比较 了 HBM HA WM, RSI 算法 的 误 判 概率 情况 。WM、RSI 算法 都 是 仅 


0.7 


false-positive ratio 


5.26 HBM 算法 和 WM、RSI 算 法 的 伪 匹 配 概 率 比 较 图 
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仅 使 用 最 后 一 个 或 几 个 字符 块 来 构 在 Deltal 表 。 因 此 ,使 用 HBM 算法 在 整体 的 误 判 概 
率 上 是 有 很 大 优势 的 ,减少 了 精确 比较 的 次 数 , 提 高 了 算法 效率 。AC 算法 由 于 没有 误 判 
情况 ,因此 未 进行 比较 。 


5.5 实验 与 分 析 


5.5.1 实验 环境 


在 测试 床 中 对 系统 的 有 效 性 进行 了 测试 。 该 测试 床 包括 以 下 设备 : 千 兆 以 太 网 络 交 
换 机 (TP-LINK TL-SL2226P 十 , 24 十 2G) ifii hit Az ^E $i IXIA 1600,ENP 2611 实验 板 ( 含 
IXP2400 Network Processor) ,以 及 携带 特征 码 的 PC、 多 台 普 通 PC 和 服务 器 。 其 测试 环 
境 示 意图 如 图 5. 27 所 示 。 


IXP 2400 Network Processor 


Gigabit Optical Link 
100Mbps Wired Link 


( ©igabit Ethernet Switch 


Infected PC Victim PC Victim PC Server 


Traffic Generator 


图 5.27 测试 环境 示意 图 


反 特 征 码 系统 可 以 工作 在 监听 模式 和 转发 模式 。 前 者 指 被 动 接 收 网 包 , 而 后 者 指 主 
动 接收 、 处 理 和 转发 网 包 。 这 里 只 进行 了 监听 模式 的 测试 。 

实验 中 分 别 用 流量 发 生 器 产生 带 有 特征 码 特征 的 TP 网 包 , 以 及 用 蠕虫 感染 主机 发 出 
带 有 病毒 代码 的 IP 网 包 , 该 系统 均 能 正确 检测 并 报警 。 


5.5.2 基于 Bloom Filter 算法 的 引擎 性 能 


文本 在 Intel 通用 多 核 平台 上 实现 了 基于 Bloom Filter 算法 的 匹配 引擎 ,并 进行 了 性 
能 测试 实验 。 在 实验 中 ,蠕虫 特征 码 和 Bloom Filter 的 算法 参数 设置 如 下 。 

位 向 量 大 小 : m= 2048, 

蠕虫 特征 码 库 大 小 : ”一 128。 

散 列 函 数 个 数 . 6— 8. 


146). 互联 网 流量 大 数据 工程 


Intel 通用 多 核 平台 的 XSCAL 核 的 工作 主 频 为 400MHz, 每 个 微 引 擎 (ME) 的 工作 主 
频 为 400MHz, SRAM 和 DRAM 的 总 线 主 频 为 100MHz, 其 吞吐 率 值 均 取 于 媒体 总 线 
(Media Bus) 上 ,其 时 钟 频率 为 104MHz。 

输入 的 网 络 网 包 流 ,载荷 长 度 大 小 分 为 64、128、256、512 和 1024B。 其 中 每 组 网 包 中 
携带 病毒 特征 码 的 比例 ( 称 为 命中 率 ) 又 分 别 为 0% 20% 40% 60% 8074781 100%. K 
统 吞 吐 量 定义 为 系统 输入 为 满 负荷 时 的 最 大 的 输出 速率 。 由 于 系统 需要 逐一 字 节 扫描 整 
个 网 包 载 荷 , 因 此 系统 吞吐 量 、 网 包 载 荷 大 小 和 携带 特征 码 的 比例 紧密 相关 。 当 网 包 的 载 
荷 长 度 增加 时 ,吞吐 量 将 会 下 降 。 图 5. 28 给 出 了 系统 吞吐 量 的 测量 值 。 
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图 5.28 不 同 命中 率 下 吞吐 率 与 网 包 载荷 长 短 关系 关系 图 


200 


系统 时 延 以 时 钟 周期 (Media Bus) 为 单位 来 测量 。 实 验 记录 了 处 理 不 同 载荷 长 度 的 
网 包 时 延 ,这 些 网 包 不 携带 病毒 特征 码 , 所 以 其 处 理 时 延 是 最 坏 情况 。 图 5. 29 给 出 了 系 
统 时 延 的 测量 值 和 网 包 长 度 的 关系 ,可 以 看 到 基本 呈 线 性 关系 。 
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图 5.29 网 包 处 理 的 系统 时 延 和 网 包 长 度 的 关系 
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由 实验 数据 可 以 看 到 ,基于 Bloom Filter 的 匹配 引擎 ,由 于 不 太 适 合 通 用 多 核 平台 
系 结构 ,因而 其 吞吐 率 性 能 指标 并 不 十 分 理想 ,未 能 达到 1Gbps 的 速度 。 


5.5.3 基于 HBM 算法 的 引擎 性 能 


本 章 在 Intel IXP 多 核 平台 上 实现 了 HBM 算法 ,并 对 性 能 进行 了 实验 。 实 验 采 用 随 
机 产生 的 固定 长 度 特征 码 字 , 字 长 为 32B, 特 征 码 字数 目 为 512 个 (注意 : HBM 算法 也 支 
持 非 固定 长 度 的 特征 码 字 )。 产 生 的 以 太 网 帧 长 度 分 别 为 118,246,…,1398, 以 及 最 大 可 
能 的 1518B。 网 包 中 携带 特征 码 字 的 比例 (简称 为 命中 率 ) 为 0% ,20%,… ,100% ,特征 码 
字 在 网 包 载荷 中 的 出 现 位 置 随机 决定 。 实 验 输入 的 网 包 数 目 为 4000。 

Intel IXP 多 核 平台 的 XSCAL 核 工作 主 频 为 400MHz, 每 个 微 引 擎 (ME) 的 工作 主 频 
Jy 400MHz. SRAM 和 DRAM 的 总 线 主 频 为 100M Hz. 其 吞吐 率 值 均 取 于 媒体 总 线 
(Media Bus) 上 ,其 时 钟 频率 为 104MHz。 

在 系统 结构 上 ,控制 平面 的 XSCAL 核 载荷 初始 化 Deltal 表 和 Delta2 表 , 同时 在 
DRAM 中 建立 散 列 链表 方式 组 织 的 特征 字符 串 集合 ;数据 平面 采用 了 6 个 微 引 擎 ,其 中 1 
个 微 引 擎 用 于 网 包 接 收 模块 ,1 个 微 引 擎 用 于 网 包 发 送 模块 ,其 余 4 个 微 引擎 运行 HBM 
算法 过 滤 网 包 载 荷 。 

在 运行 HBM 的 微 引 擎 上 ,Deltal 表 存放 在 Local Memory 中 ,每 个 表 项 需要 5b KK 
示 移 位 距离 , 则 一 个 长 字 (32b) 能 存放 6 个 表 项 ,所 以 Deltal 表 的 最 终 大 小 为 640X5= 
3. 2K 项 。Delta2 表 存 放 在 邻居 寄存 器 (Next Neighbor) 中 ,采用 本 地 微 引擎 存 取 模 式 
(Self 模式 ) 。 需 要 匹配 的 特征 码 字 以 散 列 链表 的 方式 存放 在 DRAM 中 。 

图 5. 30 和 图 5. 31 反映 了 匹配 引擎 的 吞吐 率 性 能 。 图 5. 30(a) 是 命中 率 为 0% 时 的 
吞吐 率 随 以 太 帧 长 度 变 化 情况 , 即 没有 网 络 网 包 包含 蠕虫 特征 码 的 情况 。 当 帧 长 度 很 短 
时 ,时 间 开销 主要 集中 在 帧 头 和 包头 的 分 类 处 理 上 ,深度 包 检测 的 开销 不 大 ,因而 甜 吐 率 
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图 5.30 吞吐 率 随 帧 长 变化 情况 
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图 5.31 吞吐 率 随 命中 率 的 变化 情况 ( 帧 长 固定 为 1518B) 


偏 高 ; 当 帧 长 度 变 长 时 ,深度 包 检 测 逐 渐 成 为 了 主要 性 能 瓶颈 ,吞吐 率 缓慢 下 降 , 最 后 稳定 
在 1400Gbps 到 1500Gbps 之 间 。 图 5. 30(b) 是 命中 率 为 100% 时 的 情况 , 即 每 个 网 络 网 
包 都 包含 蠕虫 特征 码 的 极端 情况 。 此 时 ,每 帧 的 处 理 都 会 有 特征 码 精 确 比 较 的 额外 时 间 
开销 ,但 同时 一 旦 发 现 特征 码 即 结束 操作 ,剩余 的 载荷 内 容 工 作 不 必 继 续 检 测 。 因 而 , 帧 
长 越 长 ,可 以 不 必 检 测 的 载荷 越 多 ,吞吐 率 也 随 着 以 太 帧 长 度 的 增加 而 增加 。 在 图 5. 31 
表示 的 吞吐 率 随 命中 率 变化 情况 中 ,也 同样 可 以 看 到 这 种 趋势 , 即 随 着 命中 率 增加 ,每 帧 
平均 不 需要 检测 的 载荷 数目 增多 ,吞吐 率 增 大 。 图 5. 32 反映 的 不 包含 蠕虫 特征 码 的 网 络 
网 包 通 过 匹配 引擎 的 延 时 情况 。 这 里 的 时 延 周期 取 自 通用 多 核 平台 的 介质 总 线 上 ,其 时 
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图 5.32 单 帧 通过 匹配 引擎 的 延 时 随 帧 长 的 变化 情况 (命中 率 为 0%) 
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钟 频率 为 104MHz。 根 据 图 中 数据 , 随 着 帧 长 度 的 增加 , 单 帧 处 理 的 平均 延 时 呈 线 性 平稳 
增长 。 

由 以 上 性 能 数据 知 : 在 IXP2400 上 采用 HBM 算法 的 匹配 引擎 ,已 经 达到 了 千 兆 以 
太 网 的 吞吐 率 要 求 ;同时 ,算法 的 吞吐 率 性 能 稳定 ,在 蠕虫 爆发 时 ( 即 命中 率 大 幅度 提高 )， 
性 能 不 会 下 降 很 多 。 


5.6 本章 小 结 和 展望 


本 章 的 主要 研究 内 容 是 基于 已 有 的 特征 码 来 匹配 和 检测 攻击 流量 ,定位 和 发 现 攻 击 
流量 。 多 核 平台 由 于 具有 灵活 的 可 编程 特性 ,高 性 能 和 适用 于 高 速 的 网 包 处 理 的 能 力 而 
备 受 关注 。 本 章 主要 介绍 了 采用 Intel IXP 多 核 平 台 , 设 计 和 实现 基于 深度 包 检 测 的 反 病 
毒 引擎 。 

同时 ,针对 TCP/IP 流 状态 内 容 扫描 和 跨 TCP 包 的 蠕虫 检测 ,本 匹配 引擎 进行 了 功 
能 的 有 效 扩 展 。 重 点 设计 了 流 状 态 的 记录 格式 ,实现 流 状态 的 检索 和 维护 ,以 及 跨 包 的 蠕 
虫 特征 码 的 检测 。 

本 匹配 引擎 系统 的 主要 特色 是 采用 并 行 Bloom Filter 算法 和 HBM 算法 ,从 而 达到 
了 较 好 性 能 指标 。 特 别 是 基于 HBM 算法 的 引擎 ,系统 性 能 稳定 , 且 达 到 了 千 兆 以 太 网 的 
要 求 。 

HBM 算法 是 对 经 典 BM 算法 的 一 个 推广 ,其 核心 想法 是 以 字符 块 为 比较 单位 和 以 
散 列 运算 作为 比较 操作 。 算 法 的 重点 是 需要 重新 设计 Deltal 表 和 Delta2 表 。 在 该 算法 
的 实现 上 ,根据 NP 的 存储 器 架构 存放 相应 的 数据 结构 ,减少 了 1/O 冲突 。 实 验 仿真 表明 
HBM 算法 有 效 地 提高 了 吞吐 率 , 并 且 性 能 指标 稳定 ,达到 了 千 兆 以 太 网 标准 ,符合 高 速 
网 络 环境 下 的 性 能 要 求 。 

网 络 攻击 的 检测 .发现 和 阻止 是 一 个 比较 复杂 的 问题 ,往往 需要 Internet 紧急 响应 
组 ,计算 机 操作 系统 和 应 用 软件 商 ,计算 机 安全 产品 商 , 网 关 、 防 火 墙 和 路 由 器 设备 制造 商 
分 工 协作 完成 。 

对 于 新 爆发 的 攻击 往往 无 能 为 力 ,至 于 病毒 特征 码 的 产生 则 需要 参考 蜜 饶 系 统 的 捕 
获 , 计 算 机 安全 产品 商 发 布 的 病毒 特征 来 获取 。 而 发 现 病毒 流量 后 采取 的 动作 则 需要 参 
考 网 关 、 防 火 墙 和 路 由 器 设备 制造 商 的 防御 措施 。 

未 来 的 进一步 工作 体现 在 扩大 特征 码 的 特征 码 数据 库 \ 减 小 误 判 概率 ,以 及 提高 反 特 
征 码 系 统 的 吞吐 率 性 能 和 时 延 特 性 ,使 之 成 为 现实 可 用 的 系统 。 
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6.1 数据 中 心 的 服务 监测 
互联 网 服务 一 般 部 署 于 数据 中 心 (Data Center) ,一 个 典型 的 数据 中 心 架构 如 图 6. 1 所 


示 。 最 前 端 是 1 十 1 宛 余 接 人 路 由 器 ,然后 是 核心 路 由 器 、 核 心 交 换 机 、 负 载 均 衡器 ,最 后 是 
接 人 交换 机 。 这 些 网 络 设备 连接 着 Web 服务 器 、Web 缓存 服务 器 .数据库 服务 器 等 。 


接 入 路 由 器 


分 路 aQ Q 分 路 设备 
核心 路 由 器 €5 C3 核心 路 由 器 


核心 交换 机 TM 流量 归档 查询 系统 


负载 均衡 器 负载 均衡 器 
接 入 交换 机 接 入 交换 机 


6.1 数据 中 心 出 口 的 服务 监测 
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旁 路 网 络 攻 击 检测 一 般 在 互联 网 数据 中 心 出 口 处 ,部 署 了 网 流 信 息 归档 与 查询 系统 。 
采用 分 路 设备 ,将 流量 镜像 出 来 ,对 流量 进行 旁 路 后 ,进行 流 记录 的 存储 ,或 者 对 流量 内 容 
进行 存储 ,再 进行 深度 包 检测 ,分析 检 测 可 能 的 攻击 特征 ,如 图 6. 1 Bro. 


6.2 互联 网 服务 访问 行为 分 析 


互联 网 数据 中 心 出 口 部 署 了 网 流 信息 归档 与 查询 系统 ,该 系统 在 网 络 上 监控 万 兆 级 
数据 中 心 发 生 的 每 一 个 请 求 .服务 .交易 ;对 途经 流量 进行 深层 次 报 文 分 析 (DPD, 重组 应 
用 层 有 效 信息 , 双向 匹配 请 求 /服务 并 记录 。 同 时 ,在 线 实时 计算 每 一 个 服务 请 求 的 响应 
时 间 , 为 大 数据 分 析 做 准备 。 

统计 用 户 Web 访问 的 元 信息 ,包括 源 IP 地 址 、 域 (domain) 和 资源 标识 (URI)。 统 计 
会 话 级 (Session 级 ) 的 访问 特征 ,合并 用 户 Web 访问 到 会 话 级 (Session) ,统计 会 话 内 的 访 
问 特征 : 访问 次 数 , 访 问 深度 ,访问 宽度 、Agent 个 数 Get 文件 访问 比例 ,静态 文件 访问 比 
和 请 求 比 等 等 。 

通过 以 上 特征 ,机 器 学 习 判 断 是 何 种 行为 : 是 正常 用 户 行为 、 候 虫 行为 .黑客 扫描 行 
为 ,还 是 攻击 行为 ,制定 相应 的 安全 策略 。 分 析 用 户 的 行为 ,如 正常 访问 (login、 
browsing .order、payment) 的 行为 ;异常 的 攻击 行为 ,如 非 对 称 DoS 攻击 ( Asymmetric 
DOS Attacks) 和 HashDOS 攻击 (通过 造成 散 列 表 的 长 串 pipeline 来 消耗 计算 资源 ,加 长 
响应 时 间 等 ) 。 

例如 ,可 以 通过 统计 单位 时 间 内 某 IP 访问 某 些 热点 线路 (CURL) 的 次 数 过 大 ,特别 是 
刷 票 软件 ;防止 朴 虫 (Web Crawler) 抓 取 , 保 护 商 业 情 报 , 比 如 单位 时 间 内 某 IP 访问 过 的 
URL 的 次 数 过 大 , 1s 内 大 于 30 次 的 URL 访问 。 也 可 以 对 DDoS 攻击 的 预警 ,如 单位 时 
间 里 若干 个 IP 对 某 URL 的 访问 次 数 过 大 , 30s 内 上 百 次 。 

统计 攻击 行为 ,对 攻击 位 置 与 频 度 的 统计 ,使 用 黑 名 单 屏蔽 掉 可 能 的 攻击 地 址 。 
另外 网 流 归 档 查询 系统 也 可 以 查询 用 户 延 时 信息 ,发 现 服务 异常 ,诊断 存在 的 性 能 
瓶颈 问题 : 服务 器 响应 时 间 ; @@ 应 用 层 上 响应 时 间 ; @ TCP 重组 问题 还 是 HTTP 
问题 等 。 

应 用 开源 软件 实现 方案 如 图 6. 2 所 示 。 为 了 能 够 进行 高 速 统计 ,只 抓 取 了 NetFlow- 
v9 格式 数据 ,有 效 统计 数据 直接 存放 在 内 存 中 。 为 了 避免 索引 空间 消耗 过 大 ,采用 了 压 
缩 方法 ,具体 参见 第 3 章 内 容 。 
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图 6.2 网 包 获 取 与 离线 分 析 


6.3 互联 网 服务 抗 DDoS 攻击 


百度 公司 拥有 世界 上 最 大 的 中 文 搜索 引擎 ,每 天 用 户 访 问 几 十 亿 次 。 百 度 通过 大 规 
模 流量 分 析 来 进行 网 络 攻击 检测 ,进行 DDoS 防御 。 通 过 自主 研发 的 流量 镜像 系统 ,获得 
流量 , 分 析 流 量 , 对 安全 攻击 报警 。 

主要 技术 包括 通过 光纤 分 光 器 ,在 不 影响 业务 的 情况 下 获得 数据 中 心 的 所 有 流量 。 
如 果 有 多 个 数据 中 心 的 话 ,可 以 进行 归 集 处 理 。 通 过 万 兆 交换 机 的 光纤 镜像 接口 ,用 
Trunk 技术 ,将 流量 1 : N 方式 物理 分 流 至 数据 接收 分 布 式 集群 。 分 布 式 集群 采用 统计 
Web 访问 数据 ,存储 记录 流量 ,然后 通过 数据 分 析 集 群 ,汇总 统计 信息 ,深入 流量 数据 挖 
据 。 具 体 部 署 如 图 6. 3 ras. 

网 络 流量 深入 分 析 还 可 以 评估 网 络 质 量 QoS 分 析 、 用 户 访问 量 分 析 统 计 等 。 例 如 ， 
对 云 服 务 健康 监护 评估 , 对 内 监护 服务 器 响应 和 网 络 状况 ; TCP, HTTP 应 用 层 响 应 时 
lal; TCP 的 乱 序 问题 ,HTTP Status 情况 等 。 对 热点 服务 和 网 络 进行 扩容 或 者 流量 负载 
均衡 ,如 图 6.4 所 示 。 

图 6. 5 给 示 出 了 一 次 DDoS 攻击 的 情况 ,发生 在 某 日 凌晨 3 点 。 通 过 对 归档 化 的 流 
量 进行 分 析 , 分 析 总 结 特征 。 

特征 检测 系统 由 高 性 能 多 核 平台 实现 ,可 以 基于 任务 的 负载 均衡 调度 ,对 安全 策略 灵 
活 配 置 ,可 任意 组 合 策略 。 通 过 DDoS 攻击 模式 的 分 析 采 样 ,可 以 对 新 发 生 的 DDoS 进行 
模式 识别 与 分 类 。 特 征 检测 匹配 成 功 后 ,即刻 启动 流量 牵引 及 流量 清洗 , 实时 发 现 攻 击 
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图 6.3 流量 镜像 系统 


图 6.4 流量 数据 分 析 挖 掘 中 心 


特征 , 截 住 攻击 流量 。DDoS 攻击 流量 牵引 与 清洗 如 图 6. 6 所 示 。 


超大 规模 的 数据 处 理 能 力 问 题 ,主要 依赖 于 大 数据 存储 与 检索 系统 、 精 准 可 靠 的 异常 
流量 识别 算法 以 及 高 效 特征 匹配 算法 。 
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正常 流量 


到 其 他 区 域 的 流量 
没有 受到 影响 


6.6 DDoS 攻击 流量 牵引 与 清洗 


6.4 互联 网 安全 实时 对 抗 


在 网 络 层 面 ,数据 中 心 一 般 都 会 部 署 Snort 和 人 侵 检测 系统 ,通过 Snort 监控 出 入 流 
量 , 奇 虎 公司 的 万 兆 Snort 入 侵 检测 系统 部 署 方案 如 图 6. 7 所 示 。 实 现 功能 有 万 兆 级 网 
包 获 取 , 网 流 的 大 数据 存储 与 计算 ,多 数据 中 心 汇聚 ,通过 TCP 协议 RST 信号 实现 旁 路 
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图 6.7 万 兆 Snort 入 侵 检 测 


在 数据 中 心 Web 服务 前 端 , 一 般 都 会 部 署 Web 应 用 防火 墙 WAF, 通 过 WAF 监控 
出 入 Web 的 流量 ,对 Web 攻击 识别 与 旁 路 阻 断 。 旁 路 Web 实时 监测 系统 部 署 方案 如 
图 6.8 所 示 。 

首先 对 Web 访问 数字 化 ,同一 Web 日 志 格式 如 下 

IP -- [time] method uri protrol retoode len ref user- agent " domain x- forward- ip 

其 次 ,识别 Web 异常 行为 分 类 ,常见 Web 攻击 有 XSS 跨 站 攻击 、SQL 注入 攻击 、 文 
件 包含 攻击 、Webshell 访问 和 人 敏感 信息 探测 等 。 

这 里 ,为 了 能 够 实现 攻击 的 快速 识别 ,使 用 了 最 新 流 式 计算 的 Twitter Storm FA. 
实现 万 兆 级 网 包 获 取 与 HTTP 流 重组 ,通过 机 器 学 习 与 规则 提取 ,建立 威胁 模型 ,自动 发 
现 与 提取 攻击 特征 ,识别 一 些 APT 行为 (高 级 持续 攻击 行为 ) 。 
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图 6.8 BH Web 实时 监测 系统 


6.5 网 络 攻击 检测 与 流 式 处 理 


在 传统 的 数据 处 理 流程 中 ,总 是 先 收集 数据 ,然后 将 数据 放 到 Database 中 。 但 是 数 
据 总 是 不 断 地 产生 ,需要 根据 当前 的 数据 实时 地 作出 判断 ,因此 流 式 计 算 (Stream 
Computing) 解 决 大 数据 的 时 效 处 理 。 

在 数据 实时 采集 方面 ,完整 地 收集 到 所 有 安全 设备 日 志 数 据 , 为 实时 应 用 提供 实时 数 
据 。 目 前 ,日 志 数据 采集 工具 有 Scribe, Kafka, Flume, TimeTunnel, Chukwa 等 , 均 可 以 
满足 每 秒 数 百 MB 的 日 志 数据 采集 和 传输 需求 。 

对 于 流 式 处 理 , 目 前 常见 流 式 计 算 系 统 有 Twitter Storm 和 Yahoo! S4。 其 他 高 效 处 
理 平 台 还 有 Facebook Puma3 和 Apache Spark 4. 


6.5.1 Twitter Storm 流 计算 
Storm 是 一 个 开源 分 布 式 的 、 容 错 的 实时 计算 系统 。Storm 建立 在 Zookeeper 的 基 
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础 上 ,大 量 系统 运行 状态 的 元 信息 都 序列 化 在 Zookeeper 中 。Storm 用 于 处 理 消息 和 更 
新 数据 库 ( 流 处 理 ) ,在 数据 流 上 进行 持续 查询 .并 以 流 的 形式 返回 结果 。 

5j Hadoop 的 批 处 理 不 同 ,Storm 采用 可 靠 流 处 理 , 应 用 场景 包括 实时 分 析 、 在 线 机 
器 学 习 和 连续 计算 等 。 


6.5.2 Yahoo! S4 分 布 式 流 计 算 平台 


S4(Simple Scalable Streaming System) 最 初 是 由 Yahoo! 为 提高 搜索 广告 有 效 点 击 
率 的 问题 而 开发 的 平台 ,是 一 个 分 布 式 流 计算 (Distributed Stream Computing) 的 模型 , 
用 于 通过 统计 分 析 用 户 对 广告 的 点 击 率 ,排除 相关 度 低 的 广告 ,提升 点 击 率 。 

S4 的 设计 目标 如 下 。 

CD. 使 用 去 中 心 的 对 等 架构 ,所 有 节点 提供 相同 的 功能 和 职责 ,简化 了 部 署 和 维护 。 

(2) 通过 在 每 个 处 理 节 点 使 用 本 地 内 存 , 避 免 磁 盘 1/0 瓶颈 达到 最 小 化 延迟 。 

(3) 使 用 可 插 拔 的 架构 ,使 设计 尽 可 能 地 既 通用 又 可 定制 化 。 

(4) 提供 简单 的 编程 接口 来 处 理 数据 流 ,友好 的 设计 理念 ,易于 编程 ,具有 灵活 的 弹性 。 

(5) 可 以 在 普通 硬件 之 上 扩展 高 可 用 集群 。 


6.5.3 Facebook DataFreeway/Puma3 


Data Freeway 是 Facebook 基于 Hadoop/ Hive 的 日 志 近 实时 分 析 系 统 ,通过 Scribe- 
HDFS 接口 ,由 Continuous Copier/Loader 写 人 HDFS 的 Datanode, 对 外 统一 用 Parallel 
Tailer, 如 图 6.9 所 示 。 


HTTP Servers Scribe-HDFS Main Hadoop Cluster 
libhdfs 
z thrift 
scribed D re scribed [7| DataNode 一 | DataNode 
Continuous 

scribed |] HDFS | replication Copier/Loader 

scribed thrift rdl scribed re DataNode | DataNode 
libhdfs 

scribed [^ 
NameNode NameNode 


1 1 
Parallel Tailer Parallel Tailer 


6.9 Facebook Data Freeway 日 志 近 实时 分 析 系 统 
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Facebook Puma3 实时 聚合 和 存储 系统 由 Puma? 发 展 而 来 ,由 HBase 作为 持久 化 
key-value storage, 通 过 聚合 key Shard 作为 hashmap 存储 在 内 存 中 ,如 图 6. 10 所 示 。 


Serving 


图 6.10 Facebook Puma3 实时 聚合 和 存储 系统 


6.5.4 Apache Spark 平台 


Apache Spark 由 Berkeley AMP 实验 室 Ion Stoica 教授 主导 开发 , 是 BADS 
(Berkeley Data Analysis Stack) 的 工具 之 一 。Spark 支持 内 存 计算 ,加 快速 度 , 并 提供 了 
Scala Java 和 Python 编程 接口 。Spark 是 支持 Shark 数据 查询 系统 的 引擎 ,Shark 是 和 
Hive 兼容 的 数据 仓储 系统 ,但 是 比 Hive 具有 更 快 的 查询 速度 。Spark 功能 组 件 图 如 
图 6.11 所 示 。 


Spark client 
(app master) Spark 
worker 
RDD graph 
Cluster 
Scheduler manager Task threads 


Block tracker Block manager 


H 


HDFS,HBase,::- 
图 6.11 Spark 平台 功能 组 件 图 


Shuffle tracker 
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互联 网 化 软件 流量 行为 分 析 


互联 网 逐渐 融入 人 类 社会 的 方方面面 , 极 大 地 促进 了 全 球 化 的 进程 。 同 时 随 着 互联 
网 规模 的 扩大 , 越 来 越 多 的 互联 网 公司 开始 组 建 自己 的 数据 中 心 ,将 上 万 台 计算 机 甚至 几 
十 万 台 计 算 机 连接 成 一 个 云 计 算 平台 ,通过 云 计算 平台 可 以 实现 很 多 以 前 不 敢 想 象 的 超 
大 规模 分 布 式 计算 。 云 计算 平台 与 传统 计算 机 相 比 较 ,为 应 用 领域 的 难题 解答 实现 了 质 
和 量 的 飞跃 。 为 适应 这 种 重大 变革 ,软件 系统 进入 一 种 新 的 形态 : 可 演化 .可 连续 反应 以 
及 可 适应 多 目标 等 。 软 件 实体 之 间 可 以 进行 协同 工作 ,进行 跨 网 的 互联 ,从 而 发 展 为 互联 
网 环境 下 的 新 的 软件 形态 一 一 网 构 软 件 。 

网 构 软件 是 互联 网 发 展 的 产物 , 随 着 互联 网 的 快速 发 展 , 用 户 隐 私 与 用 户 数据 安全 也 
面临 空前 挑战 ,而 软件 的 网 络 行为 与 用 户 安全 息息相关 : 恶意 程序 多 是 通过 联网 行为 ,将 
窃取 用 户 的 隐私 发 送 至 互联 网 特定 主机 上 。 因 此 对 网 构 软 件 的 网 络 行为 进行 深度 分 析 比 
较 有 价值 。 最 近 几 年 比较 普及 的 安全 卫士 软件 都 属于 网 构 软件 。 安 全 卫士 软件 都 拥有 联 
网 云 查 杀 模 块 ,通过 上 传 用 户 计算 机 上 的 可 疑 文件 ,在 后 端 云 服务 器 上 进行 查 杀 分 析 。 安 
全 卫士 软件 都 有 大 量 的 联网 行为 ,因此 本 章 中 作者 将 带领 读者 一 步 步 深 入 分 析 国 内 最 具 
代表 性 的 4 款 安全 卫士 软件 。 


7.1 安全 软件 简介 


我 们 选取 4 款 最 具 影 响 力 的 安全 卫士 软件 ,并 分 别 以 中 国 的 四 神兽 : 青龙 、 白 虎 、 朱 
省、 玄 武 为 其 命名 。 从 4 款 安全 卫士 软件 的 官方 主页 功能 介绍 可 以 看 出 ,都 具有 如 表 7.1 
所 示 功 能 模块 。 
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表 7.1 网 络 安全 软件 的 功能 模块 


模块 名 称 模块 功能 描述 
软件 管理 软件 升级 、 软 件 卸 载 . 软 件 管理 等 功能 模块 
安全 防护 系统 修复 杀毒、 修复 漏洞 .实时 防护 .下 载 保护 顽固 木马 克星 ` 安 全 沙 箱 等 
系统 清理 清理 垃圾 ,清除 痕迹 、 清 理 插件 
计算 机 加 速 一 键 优 化 .开机 时 间 管 理 、 启 动 项 服务 项 ,计划 任务 等 
网 络 管理 管理 网 络 流量 ,测试 网 速 、 网 速 保护 、ARP 防火 墙 等 
7.2 测试 方案 


针对 以 上 模块 可 能 产生 的 联网 行为 ,我 们 使 用 4 台 Windows 7 虚拟 机 分 别 安装 青 
龙 、 白 虎 、 朱 省 、 玄 武 4 款 卫士 软件 进行 测试 。 在 测试 过 程 中 保证 测试 机 器 硬件 ,软件 环境 
完全 相同 ,并 且 4 款 安全 卫士 软件 安装 以 后 均 未 进行 任何 设置 。 为 避免 系统 刚 启动 ,安全 
卫士 软件 因 进 行 扫描 等 活动 可 能 产生 的 网 络 行为 差异 ,我 们 在 虚拟 机 开机 11h 以 后 (系统 
运行 稳定 ,读者 也 可 以 选择 在 开机 2h 以 后 进行 测试 ) ,在 相同 的 时 间 点 开始 抓 取 网 络 数 
据 , 并 且 在 相同 的 时 间 点 结束 测试 。 

本 次 测试 主要 针对 无 用 户 干预 的 情况 下 安全 软件 自发 产生 的 网 络 行为 进行 分 析 。 通 
过 安全 网 关 数 据 采 集 模块 记录 所 有 的 Windows 7 虚拟 机 产生 的 网 络 流量 (读者 也 可 以 通 
过 Windows 7 虚拟 机 上 安装 的 Wireshark 软件 , 抓 取 所 有 通过 虚拟 机 网 卡 的 数据 , 抓 取 
的 内 容 与 安全 网 关 所 采集 的 内 容 相同 )。 对 获取 的 数据 包 进 行 对 比分 析 ,一 步 步 深入 分 析 
A 款 卫士 软件 网 络 行为 的 深层 内 涵 。 


7.2.1 测试 环境 


硬件 平台 : 4 台 HPZ220 工作 站 ,分 别 安 装 VMware vSphere 5. 0 虚拟 化 平台 。 

软件 平台 : Windows 7 64 位 操作 系统 以 及 Untangle 9. 41 64 位 安全 网 关 。Windows 7 
虚拟 机 通过 安全 网 关 以 NAT 方式 访问 互联 网 。 将 Windows 7 虚拟 机 和 Untangle 安全 
网 关 克 隆 4 份 ,分别 部 署 在 4 台 工 作 站 上 ,如 表 7.2 所 示 。 


表 7.2 测试 虚拟 机 环境 


服 务 器 IP 地 址 存储 盘 阵 安全 网 关 IP 安装 软件 
Serverl 192. 168. 2.166 Datastore *. *.134.135 青龙 
Server2 192. 168. 2. 166 Datastore6 +. *, 134,137 白虎 
Server3 192. 168. 2. 166 Datastore4 *. *.137. 227 RE 
Server4 192. 168. 2.166 Datastore *. *. 134,136 玄武 
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网 络 部 署 如 图 7. 1 所 示 。 


Server 1 UTM 


图 7.1 网 络 测试 环境 部 署 图 


7.2.2 测试 方法 


主机 测试 之 前 同步 系统 时 间 ,禁用 自动 更 新 服务 ,禁用 自动 休眠 服务 ,取消 屏幕 保护 。 
同时 安装 4 款 安全 管理 软件 ,安装 完成 后 不 运行 安全 体验 ,不 运行 漏洞 修复 ,不 采取 任何 
操作 。 开 机 11h 后 开始 抓 取 数 据 包 (避免 由 于 刚 开机 ,安全 软件 进行 模块 升级 、 木 马 查 杀 
等 因素 造成 的 测试 误差 ) ,测试 24 小 时 。 对 抓 取 的 24 小 时 数据 包 进 行 分 析 。 


7.3 网 络 流量 分 析 


在 我 们 的 测试 环境 中 ,四 台 虚 拟 机 通过 NAT 方式 访问 网 络 ,NAT 对 UDP 不 是 很 友 
好 ,所 以 我 们 以 TCP 数据 为 样本 ,分析 4 款 卫士 软件 的 网 络 行为 。 

使 用 Wireshark 打开 要 分 析 的 格式 为 pcapng 的 数据 包 文件 ,在 Filter 过 滤 窗 口中 输 
A TCP, 单 击 Apply 按钮 即 可 以 过 滤 出 所 有 的 TCP 数据 包 , 如 图 7.2 所 示 。 


7.3.1 流量 包 进行 统计 


对 之 前 抓 取 到 的 所 有 TCP 数据 包 进行 统计 分 析 ,使 用 Statistics 下 面 的 Summary 一 
项 ,可 以 看 到 Wireshark 软件 对 TCP 数据 包 的 统计 信息 ,如 图 7. 3 所 示 。 
对 4 款 软件 分 别 统计 ,将 结果 汇总 成 表 7. 3。 


Eile 


Edit View Go Capture Analyze Stati 
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ics Telephony Tools Internals Help 


OCeud Sax2 c.e¢%0F 2 BS A2QQn LLES: 


Filter: tcp [v] Expression... Clear Apply Save 
No. Time Source Destination Protocol Length Info 
3 000362300 7 T TL DO TcP 66 49159 > http [SYN] Seq=0 win=8192 Le 
4 0.20898900 了 GE = TCP 66 http > 49159 [SYN, ACK] Seq=0 Ackel w 
0. 20943200 ¢ PINE TCP 60 http > 49159 [ACK] Seq=1 Ack=218 wine 
8 0. 37930000 Eu mimm TCP 545 [TCP segment of a reassembled Pou] 
10 0.96948600 = == = TCP 1514 [TCP segment of a reassembled PDU] 
110.96948700 19 a_i} 4 HL Tp 1514 [TCP segment of a reassembled POU] 
12 0.96948800 Gm oss Ji H TCP 1514 [TCP segment of a reassembled POU] 
14 0. 97042300 Fur = TCP 1514 [TCP segment of a reassembled POU] 
15 1.10945500 fie Ppa 加 =) p TCP 1514 [TCP segment of a reassembled Pou] 
16 1.10945700 im = = ri HL E TCP 1514 [TCP segment of a reassembled POU] 
17 1.10946300 py) m2 LE rr TCP —— 1514 [TCP segment of a reassembled POU) 
19 1.11043500 Pano eee ae TCP 1514 [TCP segment of a reassembled POU] 
20 1.11043600 25 DS 19 a hee | me TCP — — 1514 [TCP segment of a reassembled POU] 
22 1, 24945600 PIE = PE TEEE TCP 1514 [TCP segment of a reassembled POU] 
23 1.24946400 19 rm imos mt Tp 1514 [TCP segment of a reassembled Pou] 
24 1.24946500 zu su it ud TCP — 1514 [TCP segment of a reassembled POU] 


* Frame 3: 66 bytes on wire (528 bits), 66 bytes captured (528 bits) on interface 0 


@ Ethernet II, Src: Hughes. 00 


(00:00. 


), Dst: vmware af:2f:43 (00:50:56:af :2F:43) 


I UITETTIEITÁTIREETTTITENYDWOTTITRTTITEII-Y 7E Nm 


7.2 peapng 的 数据 包 文件 分 析 界 面 


2013-09-21 08:27:00 
2013-09-22 08:27:09 
01 days 00:00:08 


64-bit Windows 7 Service Pack 1, build 7601 
Capture application: Dumpcap 1.10.2 (SVN Rev 51934 from /trunk-1.10) 


Capture file comments, 


Interface Dropped Packets Capture Filter Link type Packet size limi 
\Device\NPF_(F559661E-C4EA-4480-98A4-24DD4A4SCCAF) unknown none Ethernet 65535 bytes 


Display filter: none 
Ignored packets: 0 (0.00096) 


Traffic 4 Captured 4 Displayed 4 Displayed % 4 Marked 4 Marked % 
Packets 8590 8590 100000% 0 0.000% 
Between first and last packet 86408.496 sec 

‘Avg. packets/sec 0.099 

Avg. packet size 92.959 bytes 

Bytes 798520 798520 

Avg. bytes/sec 9241 

‘Avg. MBit/sec 0.000 


Help. 


图 7.3 Wireshark 软件 对 TCP 数据 包 的 统计 信息 


> 
( 
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表 7.3 4 款 软 件 统计 结果 比较 
青 龙 A OR R E 玄 A 


Packets 8590 5743 38 388 12 680 


Between first and last packet(sec) | 86 408. 496 86 401. 308 86 414. 360 86 475. 348 


Avg. packets/sec 0. 099 0. 066 0. 444 0.147 
Avg packet size 92. 959 137. 284 234. 501 355. 339 
Bytes 798 520 788 423 9 002 020 4 505 697 
Avg bytes/sec 9. 241 9.125 104. 173 52. 104 
Avg Mbit/sec 0. 000 0. 000 0. 001 0. 000 


对 其 中 TCP 流量 大 小 进行 对 比 , 可 以 得 到 图 7.4。 
24 小 时 TCP 数 据 流量 大 小 对 比 


10 000 000 
9 000 000 
8 000 000 
7 000 000 
6 000 000 
5 000 000 
4 000 000 
3 000 000 
2.000 000 
1000 000 
0 一 | 
青龙 白虎 EX 玄武 
图 7.4 TCP 流量 大 小 进行 对 比 


Bytes 


可 以 看 出 ,在 24h 测试 期 间 青龙 与 白虎 产生 的 TCP 流量 远 少 于 另 两 款 软件 ,分别 是 
玄武 的 1/5, 朱 省 的 1/10。 


7.3.2 网 络 行为 频率 分 析 


充分 利用 Wireshark 软件 统计 项 中 的 1/0 Graph 功能 ,可 以 绘制 出 非常 直观 的 流量 
分 布 图 。 下 面 我 们 先进 行 设置 ,Graph 1 是 黑色 标示 ,我 们 在 后 面 对 应 的 过 滤 框 中 输入 
tcp ,并 在 Graph 2 红线 的 过 滤 框 中 输入 http, 可 以 产生 黑色 和 红色 两 条 流量 平滑 曲线 。 
再 对 横 纵 坐标 范围 进行 设置 : Tick interval 设置 为 10min,Pixels per ticks 设置 为 5。 纵 
坐标 使 用 Bytes/Tick ,最 大 范围 为 20 000B。 分 别 对 4 款 软件 的 TCP 和 HTTP 数据 流量 
分 布 进行 绘制 ,可 以 得 到 图 7. 5 一 图 7. 8 。 
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图 7.5 流量 分 布 图 (一 ) 


X Axis 
Tick interval! 10 min 
Pixels per tide — [5 


C View as time of day 
Y Axis. 


图 7.6 流量 分 布 图 (二 ) 


曲线 类 型 为 Line, 即 平滑 曲线 。 所 以 上 述 四 图 可 以 给 读者 一 个 直观 的 印象 ,什么 时 
间 点 会 产生 流量 ,以 及 产生 多 大 的 流量 。24h 测试 期 间 青 龙 和 白虎 所 产生 的 流量 非常 小 ; 
360 安全 管家 产生 了 4 次 大 峰值 的 TCP 流量 , 约 6h 产生 一 次 ;玄武 则 产生 了 24 次 大 峰 
值 的 流量 , 约 1h 1 次 。 下 面 我 们 再 继续 深入 分 析 。 
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外 ener re 


T T 
400m 600m 800m 


¥ | Smooth 
v| Smooth. 
v| Smooth. 
v| Smooth. 
| V) Smooth 


图 7.7 流量 分 布 图 (三 ) 


i 10 min 
Pixels per ticle — [S 


口 Vew as time of day 


图 7.8 流量 分 布 图 (四 ) 


7.3.3 网 络 行为 数目 分 析 


7.3. 2 节 全 时 域 流量 对 比 图 是 从 全 局 角度 给 读者 一 个 直观 概念 ,什么 时 间 会 产生 多 
大 的 流量 ,以 及 这 些 流量 分 布 是 否 有 规律 可 循 。 为 了 进一步 方便 用 户 了 解 这 些 安全 软件 
的 网 络 行为 ,根据 TCP 协议 实现 过 程 ,如 图 7.9 所 示 。 
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客户 方 事件 网 络 报 文 服务 器 方 事件 
发 送 SYN 报 文 段 
顺序 号 =x 


接收 SYN 报 文 段 
发 送 SYN 报 文 段 


一 顺序 号 =p,ACK xl 
接收 SYN+ACK 报 文 段 


发 送 ACK ?+1 报 文 段 
接收 ACK 报 文 段 


(a) TCP 建 立 连接 的 3 次 握手 报 文 序列 
发 起 方 事件 网 络 报 文 响应 方 事件 


iu un 
顺序 号 = 
Ea M T—" 
发 送 ACK x+1 报 文 段 
> (通知 应 用 进程 ) 
接收 ACK 报 文 段 
发 送 FIN 报 文 段 
一 顺序 号 =wAGK x+ 
应 用 进程 关闭 ; 
接收 FIN+ACK 报 文 自 (应 用 进程 关闭 连接 ) 
发 送 ACK y+1 报 文 段 
| 9 接收 ACK 报 文 段 


(b) 用 于 TCP 关 闭 连 接 的 修改 的 3 次 握手 报 文 序列 
图 7.9 TCP 3 次 握手 报 文 序列 
一 次 TCP 活动 需要 3 次 握手 以 建立 连接 和 4 次 挥手 以 结束 连接 。 为 了 方便 描述 网 
络 行为 数目 ,可 以 将 一 次 TCP 连接 从 建立 到 结束 的 过 程 定义 为 一 次 网 络 行为 。 我 们 统计 
的 安全 卫士 软件 的 网 络 行为 如 表 7.4 所 示 。 
表 7.4 安全 卫士 软件 的 网 络 行为 


D+ KK 网 络 行为 数 卫士 软件 网 络 行为 数 
青龙 738 RE 2951 
白虎 348 玄武 963 
Se 


从 表 7.4 可 以 看 出 测试 期 间 ,4 款 软件 发 起 的 网 络 行为 次 数 差 距 比较 大 ,青龙 .白虎 
和 玄武 的 网 络 行为 数 都 少 于 1000 ,而 朱 汰 的 网 络 行为 接近 3000 ,意味 着 不 到 30s 就 会 发 
起 一 次 网 络 请 求 。 而 网 络 活动 数 最 少 的 白虎 平均 Amin 才 会 发 起 一 次 网 络 请 求 。 在 这 里 
读者 会 不 会 产生 一 个 疑问 : 卫士 软件 是 否 需要 如 此 频繁 地 访问 网 络 呢 ? 

由 于 青龙 数据 包 通过 HTTPS 进行 加 密 传输 ,白虎 数据 包 仅 仅 为 简单 的 状态 确认 并 
且 每 次 数据 包 内 容 相 同 , 因 此 未 对 这 两 款 卫士 软件 进行 详细 分 析 。 下 面 以 朱 淮 和 玄武 为 
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例 详细 分 析 网 络 行为 。 
7.3.4 ”网 络 行为 间隔 累积 分 布 对 比 


从 pcapng 数据 包 中 读 取 两 次 相 邻 的 网 络 行为 时 间 间 隔 , 使 用 累积 分 布 函 数 可 以 画 出 
4 款 软件 的 网 络 行为 间隔 累积 分 布 图 。 如 果 想 粗糙 地 获取 一 个 模型 进行 分 析 , 不 需要 编 
程 ,从 图 7.5 一 图 7. 8 入手 ,将 纵 坐 标 范围 设 小 一 些 , 横 坐 标 单位 值 也 设 小 一 些 , 这 样 
Wireshark 可 以 帮 人 们 统计 更 多 的 网 络 行为 ,以 及 发 生 时 间 , 复 制 这 些 数 据 在 MATLAB 
中 进行 分 析 , 也 可 以 得 到 一 个 直观 的 CDF 分 布 图 。 

从 图 7. 10 可 以 看 出 ,朱雀 所 有 TCP 流 之 间 的 时 间 间 隔 都 集中 在 30 一 40s, 而 其 他 3 
款 软件 70% HY TCP 流 都 是 集中 出 现 的 , 即 功能 模块 升级 、 特 征 库 升级 等 网 络 活动 大 都 是 
同时 出 现 。 而 其 他 TCP 活动 之 间 间 隔 分 布 比较 均衡 ,白虎 的 最 大 网 络 行为 间隔 达到 了 
10min, TI ,安全 卫士 软件 的 联网 频率 不 需要 特别 高 , 像 朱雀 这 样 的 网 络 行为 不 是 必 
需 的 。 
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1.0 PT — 
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图 7.10 CDF 分 布 图 


7.3.5 朱雀 网 络 行为 分 析 

因为 朱 汐 的 网 络 行为 数据 是 明文 传输 的 ,所 以 朱 伏 分 析 比 较 清 楚 。 我 们 可 以 从 每 次 
网 络 行为 中 的 有 效 载荷 HTTP 中 分 析 具 体 传输 的 数据 。 同 样 在 Filter( 过 滤 ) 窗 口中 输入 
过 滤 参 数 hup 后 点 击 应 用 ,就 可 以 得 到 实验 期 间 朱雀 所 有 的 HTTP 数据 包 。 以 其 中 一 


个 数据 包 为 例 进行 分 析 , 如 图 7. 11 所 示 。 
从 URL 字段 可 以 获取 我 们 想 要 的 内 容 。 直 接 打开 这 个 链接 可 以 发 现 URL. 页 面 为 
OK 字符 。 同 样 ,对 其 他 URL 进行 下 载 分 析 ,CAB 压缩 包 文件 应 该 先 解压 再 分 析 。 将 


CAB 解压 以 后 的 文件 ,对 应 朱 淮 的 安装 目录 ,在 根 目录 下 的 文件 为 主 功能 模块 文件 及 子 
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393 1100.20525 192.168.2.166 D: 226 GET /status.html HTTP/1.1 
66 Mal WIFEY E 
33 o: 


[E Frame 393: 6 s on wire 08 b » 22 captured (1808 bits) on er 0 
hernet II, src: Hughes. 00:00:00 (00:00:10: E vmware. af:2f:49 (00:50:56:af: 


n 
[HTTP request 1/1 


图 7.11 软件 朱雀 的 流量 数据 包 分 析 


文件 ,软件 朱 八 流量 行为 如 表 7.5 所 示 。 
表 7.5 软件 朱雀 流量 行为 


朱雀 模块 网 络 行为 
联网 频率 功能 描述 下 载 文 件 
主 模 块 升级 *.cab 
6h 会 产生 一 次 
主 模块 升级 * 。 cab 
63min 一 次 主 模块 升级 * 。cab 
朱雀 功能 模块 文件 请 求 * . dll 
朱雀 功能 模块 文件 升级 * . dll 
软件 管家 模块 升级 * . dll 
主 模块 升级 * . dll 
ROE I AE CES PON 主 模块 升级 "er 
活动 
主 模块 升级 *.exe 
主 模块 升级 * . dll 
垃圾 插件 特征 * 。dat 
软件 管家 模块 升级 * .ini 
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朱雀 模块 网 络 行为 


续 表 


联网 频率 


功能 描述 


TOR xd 


测试 期 间 只 发 生 一 次 性 的 网 络 
活动 


朱雀 功能 模块 升级 


朱雀 功 能 模块 升级 


朱雀 功能 模块 升级 


朱雀 功能 模块 升级 


系统 漏洞 信息 更 新 


未 知 


.htm 


主 模块 升级 


朱雀 功能 模块 


朱雀 主 模块 升级 


朱雀 功能 模块 升级 


未 知 


返回 {"result" :"-1 


" "data" ,"" 


主题 壁纸 升级 


朱雀 深度 扫描 模块 


朱雀 软件 管家 模块 升级 


朱雀 软件 管家 模块 升级 


朱雀 软件 管家 模块 升级 


上 传 文件 分 析 : 63min 一 次 


朱雀 用 户 安全 配置 文件 


朱 和 淮安 全 升级 


云 查 杀 一 可 疑 文件 扫描 请 求 : 
30s 一 次 


定期 向 服务 器 发 送 状 态 请 求 


* 


无 法 确定 用 途 的 TCP 流 


测试 期 间 根据 网 络 访问 频率 可 以 看 出 ,很 多 功能 模块 都 是 集中 进行 一 次 模块 更 新 ,部 


分 模块 更 新 更 为 频繁 。 其 中 有 3 种 网 络 行为 需要 注意 。 


COD EXHT. IRAE BERG 63min 会 将 用 户 安全 配置 文件 和 安全 升级 文件 上 传 至 
服务 器 ,虽然 内 容 加 密 不 能 分 析 , 但 是 从 每 次 数据 包 内 容 都 不 同 可 以 推断 出 每 次 上 传 的 内 
容 也 都 不 同 。 这 两 种 信息 是 否 需 要 如 此 频繁 地 进行 上 传 呢 ? 还 是 应 该 在 用 户 配 置 改 变 时 


进行 上 传 更 合理 ? 
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(2) 频繁 向 服务 器 发 起 朱雀 云 安全 一 一 扫描 可 疑 文件 请 求 ,从 服务 器 获取 status AR 
ASF status NAH OK ,但 具体 用 途 也 不 得 而 知 。 

(3) 存在 大 量 无 法 确定 用 途 的 TCP 流 ,以 编号 为 282 的 TCP 流 为 例 ,其 网 络 行为 如 
图 7.12 所 示 。 


192.168.2.1 
= | 92.168.2.166 »" 

8268.462729000 TCP: 50670 > 8090 [SYN] Seq=0 Win=65535 Len=0 MSS» 1460 WS=4 SACK PERM=1 
8271.459775000 TCP: [TCP Retransmission] $0670 > 8090 [SYN] Seq=0 Win=65535 Lene MSS 1460 WS=4 SACK PERM=1 
8271.476364000 ‘TCP: 8090 > $0670 [SYN ACK] Seq=0 Ack=1 Win=5840 Len=0 MSS=1460 SACK PERM=1 WS=128 
8271.476543000 TCP: 50670 > 8090 [ACK] Seq Ack=1 Win=131072 Len=0 

8271476876000 ‘TCP: 50670 > 8090 [PSH ACK] Seq Acke Wine 131072 Len=68 
8271477143000 TCP: 8090 > 50670 [ACK] Seq=1 Ack=69 Win=5888 Len=0 

8271.595063000 TCP: 8090 > 50670 [PSH ACK] Seq Ack=69 Win=5888 Len=68 
8271.595320000 ‘TCP: 50670 > 8090 [PSH ACK] Seq69 Acke69 Wine 131004 Len=10 
8271.595626000 TCP: 8090 > $0670 [ACK] Seq=69 Ack=79 Win=5888 Len=0 

8271.711239000 TCP: 8090 > 50670 [PSH ACK] Seq=69 Ack=79 Win=5888 Len=10 
8271.711518000 ‘TCP: 50670 > 8090 [PSH ACK] Seq=79 Acke79 Wine 130992 Lena5 
8271.711685000 TCP: 8090 > 50670 [ACK] Seq=79 Ack=84 Wine 5888 Len=0 

8271.711704000 TCP: 50670 > 8090 [PSH ACK] Seq=84 Ack=79 Wins 130992 Len=17 
8271.712722000 TCP: 8090 > 50670 [ACK] Seqs79 Acke101 Win=5888 Lens 

8271.829818000 TCP-8090 > 50670 [PSH ACK] Seqn79 Ack=101 Win=5888 Lene 
8271.830099000 ‘TCP: 50670 > 8090 [PSH ACK] Seq=101 Ack=84 Wins 150988 Lens 
8271.830408000 TCP: 8090 > 50670 ACK] Seq84 Acke106 Win=5888 Len=0 

8271.946796000 TCP: 8090 > 50670 [PSH ACK] Seq=84 Ack=106 Win<5888 Lens 
8272147232000 ‘TCP: [TCP Retransmission] 8090 > 50670 [PSH ACK] Seq=84 Ack=106 Win=5888 Len=5 
8272.147269000 TCP: 50670 > 8090 [ACK] Seq» 106 Ack=89 Wine 130984 Len» SLE=84 SRE=89 
8294.241901000 ‘TCP: 8090 > $0670 [PSH ACK] Seq 89 Acke106 Wine SBB8 Lens 1440. 
8294.360700000 TCP: 8090 > 50670 [ACK] Seq 1529 Ack=106 Win=5888 Lens 1450 
8294.360800000 TCP: 50670 > 8090 [ACK] Seq 106 Ack«2989 Wine 131072 Len=0 
8294.360954000 ‘TCP. 8090 > 50670 [ACK] Seq «2989 Actr106 Wine S888 Lens 1460 
8294.360960000 TCP: 8090 > 50670 [PSH ACQ Sequ 4449 Ack=106 Win=5888 Lene 1400. 
8294.360990000 TCP: 50670 > 8090 [ACK] Seq 106 Acke5849 Wine 131072 Len0 
8295.716873000 ‘TCP. 8090 > 50670 [ACK] Seqe5849 Acke106 Win=5888 Lene 1460 
8295716881000 ‘TCP. 8090 > 50670 [ACK| Seq«7309 Ack=106 Wins S888 Lene 1460 
8295.716882000 TCP. 090 > 50670 [PSH, ACK] Seq=8769 Acke106 Win=5888 Len=1400 
8295,716949000 ‘TCP: 50670 > 8090 [ACK] Seq 106 Ack=10169 Wine 131072 Len=0 
8298434479000 ‘TCP: 8090 > 50670 [PSH ACK] Seq 10169 Acke 106 Win<5888 Len 1440 
8298.550402000 TCP: 8090 > 50670 [PSH ACK] Seq 11609 Ack=106 Wine S888 Lene 1440 
8298,550496000 ‘TCP: 50670 > 8090 [ACK] Seq 106 Ack=13049 Win=131072 Len=0 
8298.550548000 TCP: 8090 > 50670 [PSH ACK] Seq 13049 Ack= 106 Win=5888 Lene1440 
8298.668071000 TCP: 8090 > 50670 [PSH ACK] Seq 14489 Ack=106 Win=5888 Lens 1440 
8298.668113000 ‘TCP: 50670 > 8090 [ACK] Seq=106 Ack=15829 Win=131072 Len=O 
8298.668869000 TCP: 8090 > 50670 [PSH ACK] Seq=15929 Ack#106 WinsS8B8 Lene557 
8298.884673000 TCP: 50670 > 8090 [ACK] Seq 106 Ack= 16486 Win" 130512 Len=0 
8307.995604000 ‘TCP: 50670 > 8090 RST ACK] Seq» 106 Ack=16486 Win=0 Len=0 


图 7.12 软件 朱雀 网 络 行为 


特定 通信 端口 无 法 确定 具体 用 途 。 此 类 TCP 流 占 总 TCP 流量 的 7%。 通 信服 务 器 
分 布 在 多 个 地 区 。 


7.3.6 玄武 网 络 行为 分 析 


玄武 流量 行为 如 表 7. 6 所 示 , 其 网 络 行为 中 内 部 数据 更 新 节点 也 覆盖 很 多 地 区 ,具体 
如 何 实现 无 法 确定 。 
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表 7.6 软件 玄武 流量 行为 


玄武 模块 网 络 活动 
联网 频率 功能 描述 下 载 文件 
"— 玄武 消息 更 新 节点 * pack 
玄武 消息 更 新 节点 new/ * . pack 
12min 一 次 获取 与 软件 版 本 相关 的 CV 信息 cv. * 
30min 一 次 配置 信息 更 新 模块 * dat 
玄武 公司 内 部 数据 更 新 节点 * „dat 
玄武 公司 内 部 数据 更 新 节点 nee 
— 玄武 公司 内 部 数据 更 新 节点 * . dat 
玄武 公司 内 部 数据 更 新 节点 * dat 
消息 推送 节点 mum 
玄武 消息 快速 更 新 节点 quick * 
dc 更 新 配置 文件 **l 
非 安全 模块 的 信息 交换 节点 xx 
15h 一 次 玄武 公司 网 盾 更 新 * 关 net 
16h 一 次 会 员 信息 维护 节点 * s, dat 


7.3.7 远程 通信 地 址 分 析 


青龙 在 测试 期 间 与 4 台 腾 讯 服务 器 建立 连接 ,如 图 7. 13 所 示 , 其 中 流量 最 多 的 连接 
是 与 两 台 服 务 器 通过 HTTPS 协议 传输 数据 ,由 于 内 容 
加 密 而 无 法 深入 分 析 。 其 余 网 络 行为 是 从 另外 两 台 服务 服务 器 4 其 他 
器 上 获取 * . cgi 文件 。 

白虎 在 测试 期 间 访问 了 3 台 在 联通 网 络 上 部 署 的 
CDN 服务 器 ,每 一 次 网 络 行为 都 含有 3 次 与 服务 器 的 交 
互 活动 ,交互 的 数据 包 经 比 对 发 现 内 容 相同 ,另外 有 少量 
访问 微软 服务 器 和 检测 系统 升级 的 行为 ,如 图 7. 14 
所 示 。 

对 朱雀 通 过 远程 地 址 按 功 能 聚 类 分 析 发 现 ,其 在 测 
试 期 间 62% 的 TCP 流量 都 是 由 教育 网 内 部 服务 器 升级 
模块 产生 ,30% 的 流量 为 朱雀 的 可 疑 文件 扫描 请 求 ,7% 图 7.13 青龙 远程 地 址 聚 类 分 析 
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的 TCP 活动 功能 不 能 判定 ,其 他 网 络 行为 在 TCP 流量 中 不 到 1% ,如 图 7.15 所 示 。 功 能 
不 能 判定 的 远程 主机 如 表 7.7 Bron. 


上 传 用 户 
功能 未 知 6% 文件 1 其 他 


系统 升级 1 


2% ”系统 升级 2 
CDN 服 务 器 3 


模块 升级 
62% 


图 7.14 和 白虎 远程 地 址 聚 类 分 析 图 7.15 朱雀 远程 地 址 聚 类 分 析 
表 7.7 软件 朱雀 外 联 IP 地 址 列表 

IP 位 E IP 位 E 
1.30. *. * 内 蒙古 联通 119.166. +. * | 山东 省 青岛 市 联通 
101.18. x .x 河北 省 保定 市 联通 119.178. * . * | 山东 省 菏泽 市 联通 
101.4. *. * 朱雀 在 教育 网 内 节点 119.55. * . * | 吉林 省 长 春 市 联通 
101.4. *. * 朱雀 在 教育 网 内 节点 123.234. * . * | 山东 省 青岛 市 联通 
110.228. * . * | 河北 省 石家庄 市 联通 175.171. * . * | 辽宁 省 大 连 市 联通 
110.242. * . * | 河北 省 石家庄 市 联通 220.181. *. * | 朱雀 在 教育 网 内 节点 
112.225. +. * | 山东 省 青岛 市 联通 221.207. * . * | 黑龙 江 省 哈尔滨 市 联通 
112.254. +. * | 山东 省 青岛 市 联通 60. 208. *. * 山东 省 济南 市 联通 
114.250. +. * | 北京 市 联通 60.21. *. * 辽宁 省 锦州 市 联通 


这 18 个 IP 地 址 主要 分 布 在 华北 和 东北 地 区 ,用途 目前 无 法 通过 流量 分 析 获 知 。 
玄武 远程 地 址 聚 类 分 析 如 图 7. 16 所 示 ,玄武 远程 通信 主机 中 TCP 流量 最 多 的 功能 
模块 也 是 同 多 台 主 机 同时 进行 通信 ,如 表 7. 8 所 示 。 


D: 互联 网 流量 大 数据 工程 


表 7.8 软件 玄武 外 联 IP 地 址 列表 


玄武 内 部 数据 更 新 节点 
113.5, +. * 黑龙 江 省 哈尔滨 市 联通 
123. 130. *. * 山东 省 烟台 市 北京 蓝 汛 通信 技术 有 限 责任 公司 联通 CDN 节点 
218. 29. *. * 河南 省 郑州 市 巩义 市 联通 ADSL 
218.61. *. * 辽宁 省 大 连 市 北京 蓝 汛 通 信 技 术 有 限 责 任 公 司 联通 CDN 节点 
221.192. *. * 河北 省 廊坊 市 联通 
221.8. *. * 吉林 省 通化 市 / 梅 河 口 市 联通 


玄武 的 通信 特点 是 ,同一 功能 模块 会 向 多 个 地 区 发 起 请 求 , 但 是 不 能 确定 其 升级 采用 
的 是 P2P 模式 。 玄 武 也 有 一 些 网 获取 Cv 


M " 发 送 KNS 信息 3% 
络 行为 需要 注意 。 请 求 4% ”| 一 其 他 


CD 非 安全 模块 信息 交互 ,玄武 会 推送 给 用 户 一 
些 广告 信息 ,如 wan, * * . com 域名 下 的 一 些 信息 。 

(2) VIP 信息 推送 ,此 网 络 行为 出 现在 本 身 就 含 
有 广告 过 滤 功 能 的 安全 卫士 软件 中 是 否 合理 ? 

通过 对 4 款 软件 对 比分 析 发 现 ,网 络 行为 各 有 特 
点 : 青龙 的 服务 器 都 位 于 国内 某 省 ,联网 升级 需要 连 
接 至 青龙 公司 部 署 在 该 省 的 服务 器 。 白 虎 升级 通过 
两 个 域名 d. * *.com,s. * * .com, 这 两 个 域名 通过 
CDN 技术 ,在 国内 部 署 了 很 多 服务 器 ,在 各 地 访问 时 
请 求 的 地 址 因 所 在 区 域 不 同 而 不 同 。 朱 人 雀 虽然 在 教 ”图 7.16 玄武 远程 地 址 聚 类 分 析 
育 网 内 部 部 署 了 很 多 CDN 服务 器 节点 ,但 其 升级 过 
程 中 依然 连接 了 很 多 其 他 地 区 主机 , 且 部 分 连接 功能 不 能 判定 。 玄 武 情况 更 为 复杂 ,同一 
个 更 新 内 容 可 能 会 访问 全 国 各 地 多 台 服 务 器 。 


7.4 流量 分 析 结 论 


从 上 述 分 析 可 以 看 出 ,4 款 安全 卫士 软件 主要 的 网 络 行为 如 表 7.9 一 表 7. 10 所 示 。 

青龙 大 约 2min 会 向 服务 器 发 起 HTTPS 请 求 , 因 为 内 容 加 密 未 对 其 进行 分 析 。 白 虎 约 
5min 会 向 服务 器 发 起 HTTP 请 求 , 一 次 TCP 活动 含有 3 次 交互 活动 ,具体 功能 模块 不 能 一 
一 对 应 ,也 未 做 具体 分 析 。 上 述 两 款 安 全 卫士 软件 ,虽然 没有 具体 分 析 , 但 是 从 网 络 活动 数 
目 以 及 数据 包 的 规律 可 以 看 出 ,其 网 络 行为 数目 是 比较 少 的 ,网 络 行为 也 很 规律 。 


获取 DAT 文 件 
78% 
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表 7.9 软件 朱雀 主要 网 络 行为 


R g 
模块 名 称 预测 行为 实际 行为 联网 频率 
向 服务 器 查询 系统 软件 信息 YES 24h 一 次 
软件 管理 
模块 升级 YES 24h 一 次 
向 服务 器 查询 系统 更 新 信息 YES 24h 一 次 
更 新 病毒 特征 库 
安全 防护 向 服务 器 上 传 可 疑 文件 
可 疑 文件 扫描 请 求 YES 30s 一 次 
模块 升级 YES 6h 一 次 
向 服务 器 查询 最 新 垃圾 插件 信息 YES 24h 一 次 
系统 清理 模块 升级 YES 6h 一 次 
查询 垃圾 文件 路 径 特征 等 
向 服务 器 查询 软件 启动 信息 
计算 机 加 速 | 服务 项 启动 信息 
模块 升级 YES 6h 一 次 
网 络 连通 性 测量 
网 络 带宽 测量 
网 络 管理 
与 服务 器 通信 安全 
模块 升级 YES 6h 一 次 
表 7.10 软件 玄武 主要 网 络 行为 
* R 
模块 名 称 预测 行为 实际 行为 联网 频率 
向 服务 器 查询 系统 软件 信息 YES 12min 一 次 
软件 管理 
模块 升级 
向 服务 器 查询 系统 更 新 信息 
更 新 病毒 特征 库 YES 10min 一 次 
安全 防护 
模块 升级 
向 服务 器 上 传 可 疑 文件 
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BR 
€ R 


模块 名 称 预测 行为 实际 行为 联网 频率 


向 服务 器 查询 最 新 垃圾 插件 信息 
系统 清理 模块 升级 
查询 垃圾 文件 路 径 特征 等 


向 服务 器 查询 软件 启动 信息 
计算 机 加 速 | 模块 升级 
服务 项 启动 信息 


网 络 连通 性 测量 
模块 升级 YES 15h 一 次 
网 络 带 宽 测量 

与 服务 器 通信 安全 


网 络 管理 


我 们 尽量 将 朱雀 的 联网 行为 与 其 模块 进行 对 应 ,但 是 仍 有 很 多 性 能 无 法 确定 功能 , 比 
如 上 传 用 户 配 置 文件 无 法 确定 是 哪个 功能 模块 产生 的 , 且 存 在 大 量 某 端口 的 TCP y. X 
武 也 存在 同样 的 问题 。 最 后 要 说 明 的 就 是 ,在 总 结 安全 卫士 软件 网 络 功 能 模块 时 ,分 别 查 
询 了 4 款 软件 的 各 自主 页 ,发现 3 款 软件 都 有 详细 模块 化 功能 描述 ,只 有 朱雀 软件 无 法 找 
到 对 应 的 模块 功能 说 明 ,只 能 看 到 一 份 更 新 日 志 。 

从 本 章 的 分 析 可 以 看 出 ,安全 卫士 软件 的 联网 行为 主要 有 模块 升级 ,向 服务 查询 软件 
版 本 信息 ,向 服务 查询 垃圾 插件 信息 ` 上 传 用 户 配置 文件 .服务 器 内 部 数据 更 新 ,以 及 推送 
一 些 自己 公司 的 其 他 软件 信息 等 。 在 本 次 测试 中 没有 分 析出 有 安全 卫士 软件 上 传 用 户 敏 
感 数据 的 行为 ,考虑 到 目前 安全 卫士 软件 没有 统一 的 衡量 标准 ,各 自 实 现 方式 也 不 同 , 对 
其 网 络 行为 ,我 们 暂且 可 以 认为 网 络 行为 数目 少 , 不 上 传 用 户 数据 或 少 上 传 用 户 数据 且 不 
含有 广告 推送 的 网 络 行为 ,可 以 让 用 户 放心 。 

最 后 ,本 次 测试 受 网 络 部 署 限制 ,测试 过 程 对 UDP 支持 不 好 ,所 以 本 章 未 就 UDP 
数据 进行 深入 分 析 。 且 测试 周期 时 间 有 限 ,可 能 会 因为 测试 时 间 短 而 不 能 获取 全 部 功 
能 模块 的 网 络 行为 。 因 此 ,测试 结果 可 能 会 跟 4 款 安全 卫士 软件 全 部 网 络 行为 之 间 存 
在 差别 。 
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联通 大 数据 平台 流量 记录 格式 


采集 部 分 所 有 支持 的 业务 类 型 解析 ,统一 按照 集中 化 上 网 记录 查询 及 分 析 系 统 的 
私有 协议 封装 后 进行 传输 ,各 个 字段 之 间 以 竖 线 (|) 作 为 分 隔 符 。 文 件 生成 周期 : 每 
5min( 默 认 值 ,可 以 设置 ) ,单个 文件 大 小 为 200MB, 这 两 个 指标 同时 设置 时 ,单一 指标 
到 达 阔 值 则 结束 文件 。 每 个 时 间 周 期 内 ,文件 大 小 超过 设 定 的 大 小 阔 值 , 则 保存 多 个 
文件 ,同一 周期 内 的 文件 通过 [nnnnm] 序 号 区 分 。 

数据 报 文 协议 解析 如 表 A. 1 所 示 。 

表 A.1 数据 报 文 协议 解析 


编号 字 段 备 注 
1 | 手机 号 码 不 包含 字 冠 如 十 86 ,0086,86 
2 | 位 置 区 编码 LAC 
3 | CI 号 码 当 有 网 络 切换 时 ,选择 第 一 个 CI 
4 | 终端 类 型 IMEI 
5 | 流量 类 型 
6 | 开始 时 间 YYYY-MM-DD HH:MM:SS. 1234567 ,精确 到 0. Lys 
7 | 结束 时 间 YYYY-MM-DD HH:MM:SS. 1234567 ,精确 到 0. Lys 
8 | 时 长 (s) 
9 | 上 行 流量 (B) 
10 | 下 行 流量 (B) 
11 | 总 流量 (B) 
12 | RATType 取 值 为 1 代表 3G;2 代表 2G 
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续 表 
编号 字 E 备 È 
13 | 终端 IP 
14 HIP 没有 IP 信息 的 填空 ,对 于 有 多 个 IP 的 业务 ,输出 合并 的 流量 记录 UI 
fa] 瑟 只 填 第 一 个 IP 
15 | 状态 码 
16 | User Agent 
17 | APN 如 3gwap,3gnet, uniwap, uninet, cmwap 和 cmnet 
18 | IMSI 
19 | SGSN IP 填 接 人 第 一 个 
20 | GGSN IP 
21 | Content-Type 
22 | 源 端口 
23 | 目的 端口 
0: 表示 未 合并 且 未 分 割 的 记录 
3. 表示 合并 过 且 分 割 过 的 记录 
25 | 合并 记录 数 ig aoe aig 时 ,本 字段 表示 合并 的 记录 数目 ; 当 记录 标识 为 0.2 
26 | 网 址 /特征 信息 URL/URI 的 业务 填充 URL/URI 信息 ,不 携带 的 业务 填充 
备注 : 


D 协议 中 加 粗 斜 体 部 分 需要 采集 但 在 第 一 阶段 不 需要 存储 ,其 他 字段 既 需 要 采集 又 需要 存储 。 
O 对 于 某 些 流量 类 型 数据 报 没有 相关 字段 信息 , 填 人 空 值 。 

@ 详 单 文件 中 多 条 话 单 之 间 以 回 车 符号 十 换行 符号 分 隔 。 

图 合并 规则 : 为 保证 30min 可 以 实现 查询 ,对 于 涉及 的 所 有 协议 ,按照 每 隔 Smin 出 一 次 中 间 日 


志 ; 对 QQ, 微 信 、 飞 信 、MSN、xmpp 等 即时 通信 类 业务 流量 类 型 ,按照 用 户 登 录 ID 合并 生成 记录 记 
录 ; 对 RTSP、FTP、SIP 等 业务 流量 类 型 ,把 控制 通道 和 数据 通道 合并 ,合并 为 控制 通道 的 端口 ;对 其 他 


种 类 


域 信 


的 多 IP、 多 通道 的 业务 ,进行 合并 时 以 第 一 个 IP 和 第 一 个 端口 作为 合并 后 的 IP 及 端口 。 

© 采集 里 面 对 的 WAP 和 HTTP 流量 中 的 URL 域 是 完整 的 HTTP 信息 ,包括 http:// 以 及 host 
息 , 没 有 的 补足 。 

© 业务 类 型 编码 以 3 位 数字 作为 业务 编码 。 


联通 大 数据 平台 测试 环境 


1. DatabaseX 
系统 配置 
OS Windows Server 2003 r2 enterprise 
了 Processor Intel Xeon(R) CPU X5680 @3. 33GHz 
Memory Samsung DDR3 1333 2G * 12 
System type 64b Operating System 
DatabaseX type DatabaseX 64b 
Seagate 1TB 7200r/s cache: 32MSATA 2.0 
hard disk Seagate 2TB 7200r/s cache:64MSATA 3.0 
Seagate 500GB 7200r/s cache: 32MSATA 2.0 
DatabaseX 参数 
DatabaseX type DatabaseX 64b 
Management Automatic Memory Management 
Memory. target 18048G 
memory max target 18048G 
processes 500 
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插入 数据 描述 
属性 数 26 
平均 每 条 大 小 370B 
表 中 包含 不 重复 手机 号 码 数量 2 128 795 

表 om 人 性 

编号 插入 行 数 表 物理 大 小 (GB) 索引 大 小 (GB) 
表 1 577 218 406 190.3 7.002 
表 2 1154 436 812 380. 6 13. 89 
*3 2 308 873 624 760.7 27.68 
RA 2 858 180 054 1031.3 37.43 


建立 Databasex 分 区 表 

PARTITION BY HASH (phonenutber) { 

建立 512 个 ERRITTTION, 平 均 分 布 在 3 个 磁盘 上 

} 

Alter table nologging; 

列 Phonenumber char(11) 建 立 局 部 前 级 索引 

CREATE INDEX index phonenunber CN unicamdata (Ghonenurber) LOCAL COMPRESS; 


2. HBase 
集群 配置 
OS CentOS 6.2 
了 Processor Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz 
Memory 48GB 
System type 64b Operating System. 
HBase version 0. 94. 1-Intel 
Hadoop version 1. 0. 3-Intel 
Nodes 5 


附录 B ”联通 大 数据 平台 测试 环境 (0185 


* m 性 
原始 数据 平均 每 行 大 小 370B 
region 个 数 200 
压缩 方式 SNAPPY 
* fa m 
编号 数据 行 数 表 大 小 (GB) 
#1 约 6 亿 24 
表 2 约 12 亿 47 
表 3 约 25 亿 99 
表 4 约 31 亿 123 


查询 条 件 : 查询 指定 电话 号 码 一 个 月 的 记录 。 


